Алгоритм распознавания омографов на основе евклидовой метрики
Аннотация:
Введение. Проблема разрешения неопределенностей, связанных с омонимией, для чеченского языка стала особенно актуальной после создания систем синтеза речи. Основным недостатком синтезаторов речи на чеченском языке являются ошибки чтения слов-омографов, различающихся долготой/краткостью гласных — долгота таких звуков никак не отображается при письме. Вызывает проблемы воспроизведение дифтонгов, которые обозначаются на письме так же, как близкие им по звучанию монофтонги. Для повышения качества синтезируемой речи на чеченском языке необходима программа автоматического распознавания омографов. Для решения этой проблемы рассмотрена задача устранения неоднозначности смысла слов Word Sense Disambiguation (WSD). Метод. Для чеченского языка выбраны алгоритмические (управляемые) методы, работающие на основе заранее размеченной базы данных. Эти методы являются наиболее распространенными при устранении неоднозначности смысла слов. Реализация таких методов возможна при наличии больших размеченных корпусов, которые недоступны для большинства языков мира, в том числе и для чеченского. Чеченский язык относится к малоресурсным языкам, для которых оптимальным подходом, с точки зрения экономии трудовых и временных ресурсов, является полууправляемый гибридный метод распознавания омографов, основанный на использовании алгоритмических и статистических методов. Основные результаты. Разработан алгоритм распознавания омографов по шести соседним словам в предложении. Алгоритм реализован в виде программы. Предварительная подготовка исходных данных для работы алгоритма включает разметку предложений по значениям омографов, выполняемую «вручную». Результаты работы программы оценены с использованием общепризнанных метрик точности и составили F1 — 39 %, Accuracy — 45 %. Обсуждение. Сравнительный анализ полученных данных c результатами других методов и моделей показал, что точность представленного алгоритма наиболее близка к результатам точности алгоритмов на основе метода Леска. По методу Леска для английского языка получены результаты точности F1 — 41,1% (простой Леск) и 51,1 % (Леск расширенный). Методы, использующие нейросетевые алгоритмы, дают более высокие показатели точности по WSD для большинства языков, однако для их реализации требуется наличие больших корпусов данных, что не всегда доступно для малоресурсных языков, в том числе и для чеченского.
Ключевые слова:
Постоянный URL
Статьи в номере
- Структурные и спектральные свойства нанокристаллических порошков АИГ:Nd, АИГ:Ce и АИГ:Yb, синтезированных модифицированным методом Печини
- Расчетное прогнозирование в задаче идентификации стереоизображений
- Сравнение результатов применения двух спекловых методов изучения многоцикловой усталости конструкционной стали
- Лазерно-индуцированное тепловое воздействие на электрические характеристики фоточувствительных пленок селенида свинца
- Улучшенная производительность модели RetinaNet для обнаружения огнестрельного оружия в пользовательском наборе данных и видеонаблюдения в реальном времени
- Решение задачи предварительного разбиения разнородных данных на классы в условиях ограниченного объема
- Исправление одиночных пакетов ошибок за пределами корректирующей способности кода с использованием информационных совокупностей
- Новый стратегический траекторно-базированный протокол для повышенияэффективности беспроводных сенсорных сетей
- Автоматизация распознавания сложной текстовой CAPTCHA с применением условной генеративно-состязательной нейронной сети
- Основанное на особом интересе прогнозирование протоонкогена и обнаружение возможностей его мутации в онкоген на основе первоначального анализа последовательности аминокислот
- Метод хранения векторных представлений в сжатом виде с применением кластеризации
- Использование монокулярной оптики при оценке глубины объектов для двумерного картирования моделируемой среды
- Сегментация мышечной ткани на снимках компьютерной томографии на уровне позвонка L3
- Обеспечение режимов функционирования кориолисовых вибрационных гироскопов с низкодобротными резонаторами
- Сбор и обработка экологической информации в районах нефтегазодобычи и решение других прикладных задач методами активного поиска (обзорная статья)
- Использование технологий машинного обучения при решении задачи классификации сигналов мониторинга инфразвукового фона
- Исследование влияния формы выходного торца оптического волокна на гидроакустические процессы в жидкости, стимулируемые микросекундными импульсами излучения Yb,Er:Glass-лазера