ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Аннотация:
Предмет исследования.Рассмотрены особенности структурной организации статей открытого словаря Wiktionary в контексте его использования в качестве источника для построения семантической сети. Изучены рекомендации сообщества по оформлению статей, основные шаблоны и особенности оформления реальных словарных статей. Рассмотрена проблема численной оценки семантической близости структурных элементов статей Wiktionary. Проведен анализ существующих программных продуктов для определения семантической близости таких элементов, изучены алгоритмы их функционирования, определены их преимущества и недостатки. Методы. Использованы методы математической статистики, учитывающие некоторые специфичные для Wiktionary форматы представления данных. Предложен метод определения семантической близости на основании статистических данных сравниваемых структурных элементов. Основные результаты. Сделаны выводы о невозможности прямого использования статей Wiktionary в качестве основы для построения семантической сети и о необходимости выявления скрытых структурных связей, для чего было предложено использовать метод оценки семантической близости предложений. Получен алгоритм, позволяющий на основе набора исходных предложений вычислить коэффициенты достоверности того, что каждая пара предложений является семантически близкой. Исследование количественных и качественных характеристик разработанного алгоритма показало его существенное преимущество над существующими решениями в производительности при несколько меньшей точности оценки семантической близости. Практическая значимость. Полученный алгоритм может быть полезен при разработке инструментов автоматического разбора словаря Wiktionary, а также при решении задач определения семантической близости небольших фрагментов текста на естественном языке в случае, если требования к производительности алгоритма являются более критичными, чем требования к его точности.
Ключевые слова:
Постоянный URL
Статьи в номере
- ТЕНДЕНЦИИ РАЗРАБОТКИ ДЕТОНАЦИОННЫХ ДВИГАТЕЛЕЙ ДЛЯ ВЫСОКОСКОРОСТНЫХ ВОЗДУШНО-КОСМИЧЕСКИХ ЛЕТАТЕЛЬНЫХ АППАРАТОВ И ПРОБЛЕМА ТРОЙНЫХ КОНФИГУРАЦИЙ УДАРНЫХ ВОЛН. Часть II. Исследования встречных ударных волн и тройных ударно-волновых конфигураций
- ЛИНЗОВЫЕ КОНЦЕНТРИЧЕСКИЕ СИСТЕМЫ
- ОЦЕНКА СМЕЩЕНИЯ КООРДИНАТ ЦВЕТНОСТИ ИЗОБРАЖЕНИЯ, ВЫВОДИМОГО НА ЖИДКОКРИСТАЛЛИЧЕСКИЕ ПАНЕЛИ С РАЗЛИЧНЫМИ СВОЙСТВАМИ ПО ЦВЕТОВОСПРОИЗВЕДЕНИЮ
- НЕКОТОРЫЕ ОСОБЕННОСТИ КОНСТРУИРОВАНИЯ СИЛОВЫХ ОПТИЧЕСКИХ БЛОКОВ ДЛЯ ТЕХНОЛОГИЧЕСКОГО ОБОРУДОВАНИЯ
- ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ПРОДОЛЬНОЙ ХРОМАТИЧЕСКОЙ АБЕРРАЦИИ ДЛЯ ИЗМЕРЕНИЯ РАССТОЯНИЙ ПО ЕДИНСТВЕННОЙ ФОТОГРАФИИ
- АНАЛИЗ СПЕКТРАЛЬНЫХ ХАРАКТЕРИСТИК МАСКИРОВОЧНОГО ПОКРЫТИЯ С ПРИМЕНЕНИЕМ ВИДЕОСПЕКТРОМЕТРА
- ИССЛЕДОВАНИЕ ТЕРМООПТИЧЕСКИХ НЕОДНОРОДНОСТЕЙ В Yb-Er-СТЕКЛЕ ПРИ ДИОДНОЙ НАКАЧКЕ
- ОПТИЧЕСКИЕ СВОЙСТВА ВОДНЫХ РАСТВОРОВ КАРБАМИДА
- ИССЛЕДОВАНИЕ ПРЕДЕЛА ОГНЕСТОЙКОСТИ КОМПОЗИТНОГО МАТЕРИАЛА «ЖИДКОЕ СТЕКЛО–МИКРОЧАСТИЦЫ ГРАФИТА»
- ПОЛУАВТОМАТИЧЕСКАЯ СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРОВ
- ВЫЧИСЛИТЕЛЬНО-ЭФФЕКТИВНЫЙ ПРОТОКОЛ КОНФИДЕНЦИАЛЬНОГО ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ
- КОМПЬЮТЕРНАЯ КРИМИНАЛИСТИКА: ИДЕНТИФИКАЦИЯ АВТОРА ИНТЕРНЕТ-ТЕКСТОВ
- РАЗРАБОТКА И АПРОБАЦИЯ АЛГОРИТМА КОРРЕКЦИИ ОШИБОК В СИСТЕМАХ АВТОМАТИЗАЦИИ ПРОЕКТИРОВАНИЯ ПЕЧАТНЫХ ПЛАТ
- ЭФФЕКТИВНОСТЬ РЕЗЕРВИРОВАННОГО ВЫПОЛНЕНИЯ ЗАПРОСОВ В МНОГОКАНАЛЬНЫХ СИСТЕМАХ ОБСЛУЖИВАНИЯ
- ИССЛЕДОВАНИЕ НЕЙРОСЕТЕВОГО АЛГОРИТМА ДЛЯ ОБНАРУЖЕНИЯ АНОМАЛИЙ В ПОВЕДЕНИИ СЕТЕВОГО ХОСТА ПРИ АВТОМАТИЗИРОВАННОМ ПОИСКЕ XSS-УЯЗВИМОСТЕЙ И SQL-ИНЪЕКЦИЙ
- ИССЛЕДОВАНИЕ ВЛИЯНИЯ СЛОЖНОСТИ ФУНКЦИИ КОДИРОВАНИЯ НА РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ МАСКИРОВКИ ОШИБКИ
- СОВЕРШЕНСТВОВАНИЕ ЭТАЛОННОЙ БАЗЫ В ОБЛАСТИ МЕТРОЛОГИЧЕСКОГО ОБЕСПЕЧЕНИЯ РЕЗЬБОВЫХ СОЕДИНЕНИЙ
- ТЕХНОЛОГИЯ СОСТАВЛЕНИЯ МИКРОКЛИМАТИЧЕСКИХ КАРТ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ И МОДЕЛИРОВАНИЯ ТЕПЛОВЫХ ПОЛЕЙ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ДИФРАКЦИИ УДАРНОЙ ВОЛНЫ НА ПРЯМОМ УГЛЕ НА НЕСТРУКТУРИРОВАННЫХ СЕТКАХ
- МОДЕЛИРОВАНИЕ ДИНАМИЧЕСКОЙ ВЕЛИЧИНЫ ЗАЗОРА РЕЛЬСОВОЙ ПЛЕТИ ПРИ ЕЕ РАЗРЫВЕ ДЛЯ РАЗЛИЧНЫХ ЗНАЧЕНИЙ ЖЕСТКОСТИ ПОДРЕЛЬСОВОГО ОСНОВАНИЯ
- АЛГЕБРАИЧЕСКИЕ СВОЙСТВА МАТРИЧНЫХ КОМПОНЕНТОВ МОДЕЛЕЙ ПРОЦЕССА УПРАВЛЕНИЯ В АЛГОРИТМАХ РАЗМЕЩЕНИЯ МОД МАТРИЦЫ СОСТОЯНИЯ ПРОЕКТИРУЕМОЙ СИСТЕМЫ
- МНОГОСЛОЙНЫЕ АНТИБЛИКОВЫЕ ПОКРЫТИЯ С ТОНКИМИ МЕТАЛЛИЧЕСКИМИ СЛОЯМИ
- ДВУХЭТАПНЫЙ АЛГОРИТМ ИНИЦИАЛИЗАЦИИ ОБУЧЕНИЯ АКУСТИЧЕСКИХ МОДЕЛЕЙ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ
- О ВОЗМОЖНОСТИ УСКОРЕНИЯ ГОРЕНИЯ В КАМЕРАХ СГОРАНИЯ ПЕРСПЕКТИВНЫХ РЕАКТИВНЫХ ДВИГАТЕЛЕЙ ПРИ ПОМОЩИ ГЛУБОКО ПОДКРИТИЧЕСКОГО СВЧ-РАЗРЯДА