Например, Бобцов

Автоматическая сегментация текста с учетом его семантической структуры

Сборник тезисов
Конференция:IV Всероссийский конгресс молодых ученых
Раздел:Информационные и интеллектуальные системы и технологии
Рубрика:Информационные системы и технологии
Год:2015

Автоматическая сегментация текста с учетом его семантической структуры

УДК:004.912

Аннотация

Задача сегментации связного текста состоит в разделении его на отдельные блоки (сегменты, субтемы), имеющие семантически сходное содержимое. На уровне произведения в целом такая структура (главы, параграфы, подпараграфы), как правило, задается автором. Однако в задачах автоматической обработки естественного языка особый интерес представляет такое членение на уровне отдельных абзацев (групп абзацев). С этой целью предложен ряд алгоритмов, среди которых признанным лидером по качеству сегментации является алгоритм TextTiling. Существует программная реализация алгоритма на языке Python, входящая в пакет NLTK (Natural Languate Toolkit). При отладке этой реализации был выявлен ряд недостатков. Выполнена оценка качества работы исходного и модифицированного алгоритмов TextTiling, которая проведена путем сравнения с сегментацией текста, проведенной экспертом. Показано, что выполненная модификация алгоритма позволила улучшить качество сегментации и практически приблизить его к уровню экспертной оценки.

Материалы конференций