Например, Бобцов

Алгоритм автоматического выделения коллокаций из текста

Аннотация:

Для повышения точности системы ассоциативного поиска предложен алгоритм автоматического выделения коллокаций из корпуса текстов на естественном языке. Разработанный алгоритм предназначен для аддитивной оценки биграмм (пар элементов) текста на основе статистического подхода и выделения наибо-лее релевантных биграмм с использованием распределения Ципфа. Выполнен анализ методов выделения коллокаций из случайного корпуса текстов, размещенных в сети Интернет, на основе таких ассоциативных мер, как частота вхождения биграмм в текст, t-тест, MI и c2, с использованием грамматического фильтра, с удалением стоп-слов и последующей оценкой указанных мер. Применение метода аддитивного оценивания при построении распределения Ципфа позволяет определить область корректных коллокаций, что приводит к уменьшению количества ошибок в полученных списках коллокаций.

Ключевые слова:

Статьи в номере