Например, Бобцов

Особенности применения алгоритмов интеллектуальной обработки для неанглоязычных текстов

Сборник тезисов
Конференция:V Всероссийский конгресс молодых ученых
Раздел:Экономика и гуманитарные науки
Рубрика:Интеллектуальные системы в гуманитарной сфере
Год:2016

Особенности применения алгоритмов интеллектуальной обработки для неанглоязычных текстов

УДК:004.912

Аннотация

В работе рассмотрена специфика применения алгоритмов тематической сегментации к реальным научным текстам. В качестве экспериментальной базы использованы монографии на трех языках по единой тематике, причем в исследуемый корпус включены идентичные фрагменты монографий на языках оригинала, а также их профессиональных переводов. В качестве реперного алгоритма выбран TextTiling, использующий локальную информацию о связности между соседними частями текста. Исследовано влияние на качество сегментации текста таких параметров, как размер скользящего окна, величина перекрытия между окнами, уровень отсечки. Определены оптимальные комбинации параметров сегментации для различных языков. На примере русского языка подтверждено, что подключение внешних лексических ресурсов существенно повышает качество сегментации.

Материалы конференций