Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов
Аннотация:
Предмет исследования. Повсеместное увеличение объемов обрабатываемой информации на объектах критической информационной инфраструктуры, представленной в текстовой форме на естественном языке, создает проблему ее классификации по степени конфиденциальности. Успех решения данной задачи зависит как от самой модели-классификатора, так и от выбранного способа извлечения признаков (векторизации). Требуется максимально полно передать модели-классификатору свойства исходного текста, содержащие всю совокупность демаркационных признаков. В работе представлена эмпирическая оценка эффективности алгоритмов линейной классификации, основанная на выбранном способе векторизации, а также значении количества настраиваемых параметров в случае применения векторизатора хеширования (Hash Vectorizer). Метод. В качестве датасета для обучения и тестирования алгоритмов классификации использованы государственные текстовые документы, условно выступающие в роли конфиденциальных. Выбор подобного текстового массива обусловлен наличием специфической терминологии, повсеместно встречающейся в рассекреченных документах. Терминированность, являясь примитивной демаркационной границей и выступая в роли классификационного признака, облегчает работу алгоритмов классификации, что в свою очередь позволяет сконцентрировать внимание на той доли вклада, которую вносит выбранный способ векторизации. Метрикой оценки качества работы алгоритмов выступает величина ошибки классификации. За величину ошибки принята величина, обратная доле правильных ответов алгоритма (accuracy). Проведена оценка алгоритмов по времени обучения. Основные результаты. Полученные гистограммы отражают величину ошибки алгоритмов и время обучения. Выделены наиболее и наименее эффективные алгоритмы для конкретно заданного способа векторизации. Практическая значимость. Результаты работы позволяют повысить эффективность решения реальных практических классификационных задач текстовых документов небольшого объема со свойственной специфической терминологией.
Ключевые слова:
Постоянный URL
Статьи в номере
- Исследование силиконовой пленки, осажденной на поверхность кварцевого стекла под действием лазерного излучения
- Оптические композиты на основе органических полимеров и полупроводниковых пигментов
- Новый алгоритм идентификации частоты синусоидального сигнала с постоянными параметрами
- Исследование кремниевых p-n структур с моно- и мультифоточувствительными поверхностями
- Детектирование состояния зевоты у водителя транспортного средства при помощи модели сверточной нейронной сети
- Применение теории игр для обеспечения безопасности коммуникации киберфизической системы с использованием механизмов репутации и доверия
- Исследование влияния человеческих факторов на скорость движения рельсового городского транспорта
- Алгоритм обнаружения RFID-дубликатов
- Редукция набора детекторов LSB с заданной достоверностью
- Классификация объектов на изображениях с учетом искажений на основе двухэтапного топологического анализа
- Снижение размерности атрибутов с использованием нечетко оптимизированного независимого компонентного анализа для системы обнаружения вторжений в большие данные
- Оптимальная быстрая генерация и распределение квантовых ключей
- Распознавание эмоционального состояния человека на основе сверточной нейронной сети
- Интеллектуализация управления развитием персонала высокотехнологичных сервис-ориентированных компаний
- Исследование эффективности работы системы коррекции магнитного компаса
- Новая аналитическая модель тока стока и параметров малых сигналов AlGaN-GaN транзисторов с высокой подвижностью электронов
- Вменение и системное моделирование параметров кислотно-основного состояния различных групп пациентов
- Построение на базе задачи машины Дубинса опорных траекторий движения объектов с учетом постоянных внешних воздействий
- Математическая модель эпидемии с произвольным законом восстановления
- Моделирование импульсного истечения смеси воздуха и мелкодисперсного порошка, частично заполняющего выбросной канал
- Использование векторизованных структур данных при реализации вычислительных алгоритмов решения задач механики сплошной среды
- Сравнительный анализ алгоритмов вычислительного интеллекта для оценки канала LTE
- Внедрение системы поддержки принятия решений для повышения качества медицинских данных пациентов с артериальной гипертензией