Алгоритм автоматического выделения коллокаций из текста
Аннотация:
Для повышения точности системы ассоциативного поиска предложен алгоритм автоматического выделения коллокаций из корпуса текстов на естественном языке. Разработанный алгоритм предназначен для аддитивной оценки биграмм (пар элементов) текста на основе статистического подхода и выделения наибо-лее релевантных биграмм с использованием распределения Ципфа. Выполнен анализ методов выделения коллокаций из случайного корпуса текстов, размещенных в сети Интернет, на основе таких ассоциативных мер, как частота вхождения биграмм в текст, t-тест, MI и c2, с использованием грамматического фильтра, с удалением стоп-слов и последующей оценкой указанных мер. Применение метода аддитивного оценивания при построении распределения Ципфа позволяет определить область корректных коллокаций, что приводит к уменьшению количества ошибок в полученных списках коллокаций.
Ключевые слова:
Постоянный URL
Статьи в номере
- Дифференциальные уравнения непрерывных комплексных фильтров
- Целевые функции и ограничения в задаче структурного синтеза систем сбора и обработки информации о техническом состоянии космических аппарато
- Применение метрик Холстеда для количественного оценивания характеристик программ ЭВМ
- Погрешность волоконно-оптического гироскопа при угловых колебаниях
- Комплекс компьютерных моделей для исследования полуавтоматических систем управления манипуляционными роботами
- Измерительные цепи прямого преобразования для емкостных акселерометров и гироскопов
- Анализ точности преобразования насыщенности цвета в современном программном обеспечени
- Метод измерения спектральной излучательной способности нагретых тел
- Установка для измерения теплофизических свойств теплоизоляционных материалов методами линейного и плоского импульсных источников теплоты
- Стенд для испытаний синхронного бесколлекторного двигателя