Например, Бобцов

ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Аннотация:

Предмет исследования.Рассмотрены особенности структурной организации статей открытого словаря Wiktionary в контексте его использования в качестве источника для построения семантической сети. Изучены рекомендации сообщества по оформлению статей, основные шаблоны и особенности оформления реальных словарных статей. Рассмотрена проблема численной оценки семантической близости структурных элементов статей Wiktionary. Проведен анализ существующих программных продуктов для определения семантической близости таких элементов, изучены алгоритмы их функционирования, определены их преимущества и недостатки. Методы. Использованы методы математической статистики, учитывающие некоторые специфичные для Wiktionary форматы представления данных. Предложен метод определения семантической близости на основании статистических данных сравниваемых структурных элементов. Основные результаты. Сделаны выводы о невозможности прямого использования статей Wiktionary в качестве основы для построения семантической сети и о необходимости выявления скрытых структурных связей, для чего было предложено использовать метод оценки семантической близости предложений. Получен алгоритм, позволяющий на основе набора исходных предложений вычислить коэффициенты достоверности того, что каждая пара предложений является семантически близкой. Исследование количественных и качественных характеристик разработанного алгоритма показало его существенное преимущество над существующими решениями в производительности при несколько меньшей точности оценки семантической близости. Практическая значимость. Полученный алгоритм может быть полезен при разработке инструментов автоматического разбора словаря Wiktionary, а также при решении задач определения семантической близости небольших фрагментов текста на естественном языке в случае, если требования к производительности алгоритма являются более критичными, чем требования к его точности.

Ключевые слова:

Статьи в номере