Автоматическая сегментация текста с учетом его семантической структуры
Аннотация
Задача сегментации связного текста состоит в разделении его на отдельные блоки (сегменты, субтемы), имеющие семантически сходное содержимое. На уровне произведения в целом такая структура (главы, параграфы, подпараграфы), как правило, задается автором. Однако в задачах автоматической обработки естественного языка особый интерес представляет такое членение на уровне отдельных абзацев (групп абзацев). С этой целью предложен ряд алгоритмов, среди которых признанным лидером по качеству сегментации является алгоритм TextTiling. Существует программная реализация алгоритма на языке Python, входящая в пакет NLTK (Natural Languate Toolkit). При отладке этой реализации был выявлен ряд недостатков. Выполнена оценка качества работы исходного и модифицированного алгоритмов TextTiling, которая проведена путем сравнения с сегментацией текста, проведенной экспертом. Показано, что выполненная модификация алгоритма позволила улучшить качество сегментации и практически приблизить его к уровню экспертной оценки.