Особенности применения алгоритмов интеллектуальной обработки для неанглоязычных текстов
Аннотация
В работе рассмотрена специфика применения алгоритмов тематической сегментации к реальным научным текстам. В качестве экспериментальной базы использованы монографии на трех языках по единой тематике, причем в исследуемый корпус включены идентичные фрагменты монографий на языках оригинала, а также их профессиональных переводов. В качестве реперного алгоритма выбран TextTiling, использующий локальную информацию о связности между соседними частями текста. Исследовано влияние на качество сегментации текста таких параметров, как размер скользящего окна, величина перекрытия между окнами, уровень отсечки. Определены оптимальные комбинации параметров сегментации для различных языков. На примере русского языка подтверждено, что подключение внешних лексических ресурсов существенно повышает качество сегментации.