ИСПОЛЬЗОВАНИЕ ВЕРОЯТНОСТНОГО РАСПРЕДЕЛЕНИЯ НАД МНОЖЕСТВОМ КЛАССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ АРАБСКИХ ДИАЛЕКТОВ
Аннотация:
Предмет исследования.Предложен подход к решению задачи классификации, использующий информацию о распределении вероятностей на множестве классов в обучающей выборке. Алгоритм проиллюстрирован на одной из сложных задач автоматической обработки текстов на естественном языке – классификации арабских диалектов. Метод.Каждому объекту обучающей выборки сопоставляется распределение вероятностей над метками классов, вместо сопоставления единственной метки класса. Предлагаемый подход решает задачу с учетом распределения вероятностей над множеством классов для повышения качественных показателей работы классификатора. Основные результаты. Предложенный подход проиллюстрирован на примере задачи классификации арабских диалектов. Анализируемые данные,содержащие слова-метки,получены из социальной сети Twitter, относящиеся к шести арабским диалектам: саудовский, левантийский, алжирский, египетский, иракский, иорданский; использованы также сообщения на современном стандартном арабском языке (MSA). Показан рост качества классификации при учете вероятностного распределения над множеством классов в обучающей выборке. Показано, что даже относительно простой учет вероятностного распределения увеличивает точность предсказания с 44% до 67%. Практическая значимость.Предложенный подход и соответствующий алгоритм могут найти применение в случае, когда разметка данных экспертом требует значительных временных и финансовых ресурсов, но имеется возможность разработки эвристических правил. Реализация предложенного алгоритма позволит снизить затраты при подготовке данных без значительной потери точности классификации.
Ключевые слова:
Постоянный URL
Статьи в номере
- ОБРАЗОВАНИЕ НАНОРАЗМЕРНЫХ СТРУКТУР В ПРИПОВЕРХНОСТНОМ СЛОЕ МЕТАЛЛОВ ПРИ ВОЗДЕЙСТВИИ УЛЬТРАКОРОТКОГО ЛАЗЕРНОГО ИМПУЛЬСА УЛЬТРАФИОЛЕТОВОГО ДИАПАЗОНА
- СТРУЙНАЯ ПЕЧАТЬ АЛЮМООКСИДНОГО ЗОЛЯ ДЛЯ ФОРМИРОВАНИЯ ПРОСВЕТЛЯЮЩИХ ПОКРЫТИЙ
- ПОВЫШЕНИЕ КАЧЕСТВА ИЗОБРАЖЕНИЙ ПУТЕМ СИНТЕЗИРОВАНИЯ КОСМИЧЕСКИХ СНИМКОВ С РАЗНОЙ ЭКСПОЗИЦИЕЙ
- РОБАСТНЫЙ АЛГОРИТМ УПРАВЛЕНИЯ МНОГОСВЯЗНЫМИ СИСТЕМАМИ С КВАНТОВАННЫМ ВЫХОДОМ
- КИНЕТИКА КОЛЛАПСА КОМПОЗИТОВ НА ОСНОВЕ СОПОЛИМЕРА АКРИЛОВОЙ КИСЛОТЫ И АКРИЛАМИДА, НАПОЛНЕННОГО БЕНТОНИТОМ В ВОДНЫХ РАСТВОРАХ ПОЛИВАЛЕНТНЫХ МЕТАЛЛОВ
- ФОРМИРОВАНИЕ НАНОСТРУКТУРИРОВАННОЙ ПЛЕНКИ CuO НА ПОВЕРХНОСТИ ФТОРОФОСФАТНЫХ СТЕКОЛ
- ТЕХНОЛОГИИ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ В ЗАДАЧАХ УПРАВЛЕНИЯ СИТУАЦИОННОЙ ОСВЕДОМЛЕННОСТЬЮ ПРИ ПРОВЕДЕНИИ ГЛОБАЛЬНЫХ МАССОВЫХ МЕРОПРИЯТИЙ
- АЛГОРИТМЫ ВЗАИМНОЙ ТРАНСФОРМАЦИИ ИЗОБРАЖЕНИЙ ДЛЯ СИСТЕМ ОБРАБОТКИ И ПОИСКА ВИЗУАЛЬНОЙ ИНФОРМАЦИИ
- АВТОМАТИЧЕСКИЙ АНАЛИЗ ЛОКАЛЬНЫХ МАРШРУТОВ И ПРИДОМОВОЙ ТЕРРИТОРИИ ДЛЯ ПОДДЕРЖКИ ПЛАНИРОВАНИЯ ГОРОДСКОГО РАЙОНА
- МЕТОД КОНТРАСТНОГО ИЗВЛЕЧЕНИЯ РЕДКИХ ТЕРМИНОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
- АНАЛИЗ СТАТИСТИЧЕСКИХ ДАННЫХ МОНИТОРИНГА СЕТЕВОЙ ИНФРАСТРУКТУРЫ ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ЛОКАЛЬНОГО СЕГМЕНТА СИСТЕМЫ
- ОБЕСПЕЧЕНИЕ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ПРЯМЫХ СОЕДИНЕНИЙ 5G ПРИ ИЗМЕНЕНИИ СКОРОСТИ ДВИЖЕНИЯ АБОНЕНТОВ И НАЛИЧИИ СОТОВОГО СОДЕЙСТВИЯ
- ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ ИДЕНТИФИКАЦИИ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ ПО КОРОТКИМ ЭЛЕКТРОННЫМ СООБЩЕНИЯМ
- МОДЕЛЬ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ДВУЯЗЫЧНОЙ КЛАССИФИКАЦИИ ТОНАЛЬНОСТИ КОРОТКИХ ТЕКСТОВ
- ИННОВАЦИОННЫЙ ДАТЧИК ТЕПЛОВОГО ПОТОКА
- ПОДХОД К СИНТЕЗУ ПАССИВНЫХ ОПТИКО-ЭЛЕКТРОННЫХ ИНФРАКРАСНЫХ ИЗВЕЩАТЕЛЕЙ НА ОСНОВЕ КВАЗИТОЧЕЧНОЙ МОДЕЛИ КВАЛИФИЦИРОВАННОГО НАРУШИТЕЛЯ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА МАССООБМЕНА В ВЫПАРНОМ АППАРАТЕ ЦЕНТРОБЕЖНОГО ТИПА
- ВАРИАНТ РАСЧЕТА ПОЛУЭМПИРИЧЕСКИХ ОДНОЭЛЕКТРОННЫХ ВОЛНОВЫХ ФУНКЦИЙ МНОГОЭЛЕКТРОННЫХ АТОМОВ ДЛЯ ЧИСЛЕННОГО МОДЕЛИРОВАНИЯ ЭЛЕМЕНТАРНЫХ ПРОЦЕССОВ В НЕЛОКАЛЬНОЙ ПЛАЗМЕ
- ПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ ДИФФЕРЕНЦИАЛЬНО-РАЗНОСТНЫХ МОДЕЛЕЙ ТЕПЛОПЕРЕНОСА ПРИ МОНИТОРИНГЕ ТЕМПЕРАТУРЫ ЛИДАРА
- ВЛИЯНИЕ ЛАЗЕРНОГО УЛЬТРАФИОЛЕТОВОГО ИЗЛУЧЕНИЯ НА СПЕКТРАЛЬНЫЕ СВОЙСТВА БОРАТНЫХ СТЕКОЛ С НАНОКРИСТАЛЛАМИ ХЛОРИДА МЕДИ
- УПРАВЛЕНИЕ ИНЖЕНЕРНЫМИ ДАННЫМИ ПРОЕКТА ПРИ АВТОМАТИЗАЦИИ ПОДГОТОВКИ КОНСТРУКТОРСКОЙ ДОКУМЕНТАЦИИ
- СИСТЕМА УПРАВЛЕНИЯ НАКЛОННОЙ ПЛАТФОРМОЙ С ДВУМЯ СТЕПЕНЯМИ СВОБОДЫ ДЛЯ ИССЛЕДОВАНИЯ ЗАДАЧ ДИНАМИЧЕСКОГО МАНИПУЛИРОВАНИЯ
- УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЛАЗЕРНЫМ ИЗЛУЧЕНИЕМ ПОВЕРХНОСТИ ОБЪЕКТА ПРОИЗВОЛЬНОЙ ФОРМЫ
- АВТОМАТИЗИРОВАННАЯ СИСТЕМА ДИСТАНЦИОННОГО УПРАВЛЕНИЯ И КОНТРОЛЯ ЛАБОРАТОРНОГО ОБОРУДОВАНИЯ