Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке
Аннотация:
Предмет исследования. В работе предложен метод автоматического определения структуры дерева и ключевых тематик узлов в процессе построения дерева диалога по неразмеченным текстовым корпусам. Построение дерева диалога является одной из трудоемких задач при создании автоматической диалоговой системы и в большинстве случаев производится на основе ручной разметки, что занимает достаточно много времени и ресурсов. Метод. Разработанный метод иерархической кластеризации диалогов учитывает семантическую близость сообщений, позволяет выделять различное количество узлов на каждом уровне иерархии и ограничивать дерево диалогов в ширину и глубину. Алгоритм построения аннотаций узлов дерева диалога учитывает иерархию тем за счет построения тематических цепочек. В основе метода лежит комплексное использование методов обработки естественного языка (токенизация, лемматизация, частеречная разметка, построение векторных представлений слов и др.), анализа главных компонент для снижения размерности и методов кластерного анализа. Основные результаты. Эксперименты по построению структуры дерева диалога и аннотированию узлов показали большие возможности предложенного метода для построения автоматического дерева диалога. Точность распознавания на примере эталонного дерева диалога, содержащего 13 узлов на первом, 381 узел на втором и 299 узлов на третьем уровнях составила 0,8, 0,7 и 0,5 соответственно. Практическая значимость. Автоматическое построение деревьев диалога может быть востребовано при разработке диалоговых систем и повышения качества решения задачи генерации ответов на вопросы пользователей.
Ключевые слова:
Постоянный URL
Статьи в номере
- Особенности изображений воды, льда, снега, предметов и человека, формируемых гибридной телевизионной камерой в ближнем инфракрасном диапазоне
- Анализ периодически текстурированных кремниевых солнечных элементов с использованием технологии моделирования TCAD
- Сцинтилляционные датчики гамма-излучения на основе твердотельных фотоумножителей в составе беспроводных сетей промышленного интернета
- Повышение качества сетевого управления технологическими процессами
- Геометрический подход к решению задачи для машин Дубинса при формировании программных траекторий движения
- Дрейф двумерных вакансионных островков на поверхности Si(100) в условиях электромиграции
- Исследование фотокаталитических свойств композитов хитозан-TiO2 для разложения пирена
- Кинетика трансформации формы эшелонов атомных ступеней на поверхности Si(001) в условиях электромиграции
- Аномальный диффузионный профиль адатомов на экстремально широких террасах поверхности Si (111)
- Методика эксперимента для оценивания вероятности и опасности реализации сетевых атак в автоматизированных системах
- Метод отбора мета-признаков на основе фреймворка Auto-sklearn
- Обобщенное программирование с комбинаторами и объектами
- Машинное обучение байесовской сети доверия как инструмента оценки интенсивности процесса по данным из социальной сети
- Модели реструктуризации программного обеспечения для языка объектно-ориентированного программирования с использованием алгоритма нечеткой кластеризации
- Концепция управления сетевой структурой интеллектуальных устройств в условиях цифровой трансформации энергетической отрасли
- Защита изображений лиц от распознавания в социальных сетях: способы решения и их перспективы
- Избыточные модели контролепригодных распределенных вычислительных систем реального времени
- Исследование влияния толщины базы на фотоэлектрические параметры кремниевых солнечных элементов с использованием новых TCAD алгоритмов
- Сбалансированный алгоритм гибридного метода крупных частиц и его проверка на некоторых тестовых задачах
- Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса
- Оценка кровоснабжения мозга через интактный череп с использованием визуализирующей фотоплетизмографии