МЕТОД КОНТРАСТНОГО ИЗВЛЕЧЕНИЯ РЕДКИХ ТЕРМИНОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Аннотация:
Рассмотрена проблема автоматического извлечения терминов предметной области из корпуса документов с привлечением контрастной коллекции. Существующие контрастные методы хорошо справляются с часто используемыми терминами, но работают плохо с редкими терминами, что приводит к обеднению словаря. Среди известных статистических методов оценка точечной взаимной информации хорошо выявляет редкие термины, однако при этом извлекается большое число слов, не относящихся к терминам. Для извлечения редких терминов в работе предложен подход, состоящий в использовании точечной взаимной информации с последующей фильтрацией кандидатов в термины по критерию совместной встречаемости с другими терминами-кандидатами. Для устранения шумов и выявления сильных связей формируется матрица «документы-на-термины», которая подвергается сингулярному разложению. После этого осуществляется переход к матрице «термины-на-термины», отражающей силу связей между словами. Предлагаемый подход апробирован на коллекции документов предметной области «Геология». В качестве контрастной коллекции использованы публикации из разделов «Политика», «Культура», «Экономика» и «Происшествия» на новостных Интернет-сайтах. Результаты эксперимента продемонстрировали работоспособность метода для успешного извлечения редких терминов.
Ключевые слова:
Постоянный URL
Статьи в номере
- ОБРАЗОВАНИЕ НАНОРАЗМЕРНЫХ СТРУКТУР В ПРИПОВЕРХНОСТНОМ СЛОЕ МЕТАЛЛОВ ПРИ ВОЗДЕЙСТВИИ УЛЬТРАКОРОТКОГО ЛАЗЕРНОГО ИМПУЛЬСА УЛЬТРАФИОЛЕТОВОГО ДИАПАЗОНА
- СТРУЙНАЯ ПЕЧАТЬ АЛЮМООКСИДНОГО ЗОЛЯ ДЛЯ ФОРМИРОВАНИЯ ПРОСВЕТЛЯЮЩИХ ПОКРЫТИЙ
- ПОВЫШЕНИЕ КАЧЕСТВА ИЗОБРАЖЕНИЙ ПУТЕМ СИНТЕЗИРОВАНИЯ КОСМИЧЕСКИХ СНИМКОВ С РАЗНОЙ ЭКСПОЗИЦИЕЙ
- РОБАСТНЫЙ АЛГОРИТМ УПРАВЛЕНИЯ МНОГОСВЯЗНЫМИ СИСТЕМАМИ С КВАНТОВАННЫМ ВЫХОДОМ
- КИНЕТИКА КОЛЛАПСА КОМПОЗИТОВ НА ОСНОВЕ СОПОЛИМЕРА АКРИЛОВОЙ КИСЛОТЫ И АКРИЛАМИДА, НАПОЛНЕННОГО БЕНТОНИТОМ В ВОДНЫХ РАСТВОРАХ ПОЛИВАЛЕНТНЫХ МЕТАЛЛОВ
- ФОРМИРОВАНИЕ НАНОСТРУКТУРИРОВАННОЙ ПЛЕНКИ CuO НА ПОВЕРХНОСТИ ФТОРОФОСФАТНЫХ СТЕКОЛ
- ТЕХНОЛОГИИ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ В ЗАДАЧАХ УПРАВЛЕНИЯ СИТУАЦИОННОЙ ОСВЕДОМЛЕННОСТЬЮ ПРИ ПРОВЕДЕНИИ ГЛОБАЛЬНЫХ МАССОВЫХ МЕРОПРИЯТИЙ
- АЛГОРИТМЫ ВЗАИМНОЙ ТРАНСФОРМАЦИИ ИЗОБРАЖЕНИЙ ДЛЯ СИСТЕМ ОБРАБОТКИ И ПОИСКА ВИЗУАЛЬНОЙ ИНФОРМАЦИИ
- АВТОМАТИЧЕСКИЙ АНАЛИЗ ЛОКАЛЬНЫХ МАРШРУТОВ И ПРИДОМОВОЙ ТЕРРИТОРИИ ДЛЯ ПОДДЕРЖКИ ПЛАНИРОВАНИЯ ГОРОДСКОГО РАЙОНА
- АНАЛИЗ СТАТИСТИЧЕСКИХ ДАННЫХ МОНИТОРИНГА СЕТЕВОЙ ИНФРАСТРУКТУРЫ ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ЛОКАЛЬНОГО СЕГМЕНТА СИСТЕМЫ
- ОБЕСПЕЧЕНИЕ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ПРЯМЫХ СОЕДИНЕНИЙ 5G ПРИ ИЗМЕНЕНИИ СКОРОСТИ ДВИЖЕНИЯ АБОНЕНТОВ И НАЛИЧИИ СОТОВОГО СОДЕЙСТВИЯ
- ИСПОЛЬЗОВАНИЕ ВЕРОЯТНОСТНОГО РАСПРЕДЕЛЕНИЯ НАД МНОЖЕСТВОМ КЛАССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ АРАБСКИХ ДИАЛЕКТОВ
- ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ ИДЕНТИФИКАЦИИ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ ПО КОРОТКИМ ЭЛЕКТРОННЫМ СООБЩЕНИЯМ
- МОДЕЛЬ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ДВУЯЗЫЧНОЙ КЛАССИФИКАЦИИ ТОНАЛЬНОСТИ КОРОТКИХ ТЕКСТОВ
- ИННОВАЦИОННЫЙ ДАТЧИК ТЕПЛОВОГО ПОТОКА
- ПОДХОД К СИНТЕЗУ ПАССИВНЫХ ОПТИКО-ЭЛЕКТРОННЫХ ИНФРАКРАСНЫХ ИЗВЕЩАТЕЛЕЙ НА ОСНОВЕ КВАЗИТОЧЕЧНОЙ МОДЕЛИ КВАЛИФИЦИРОВАННОГО НАРУШИТЕЛЯ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА МАССООБМЕНА В ВЫПАРНОМ АППАРАТЕ ЦЕНТРОБЕЖНОГО ТИПА
- ВАРИАНТ РАСЧЕТА ПОЛУЭМПИРИЧЕСКИХ ОДНОЭЛЕКТРОННЫХ ВОЛНОВЫХ ФУНКЦИЙ МНОГОЭЛЕКТРОННЫХ АТОМОВ ДЛЯ ЧИСЛЕННОГО МОДЕЛИРОВАНИЯ ЭЛЕМЕНТАРНЫХ ПРОЦЕССОВ В НЕЛОКАЛЬНОЙ ПЛАЗМЕ
- ПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ ДИФФЕРЕНЦИАЛЬНО-РАЗНОСТНЫХ МОДЕЛЕЙ ТЕПЛОПЕРЕНОСА ПРИ МОНИТОРИНГЕ ТЕМПЕРАТУРЫ ЛИДАРА
- ВЛИЯНИЕ ЛАЗЕРНОГО УЛЬТРАФИОЛЕТОВОГО ИЗЛУЧЕНИЯ НА СПЕКТРАЛЬНЫЕ СВОЙСТВА БОРАТНЫХ СТЕКОЛ С НАНОКРИСТАЛЛАМИ ХЛОРИДА МЕДИ
- УПРАВЛЕНИЕ ИНЖЕНЕРНЫМИ ДАННЫМИ ПРОЕКТА ПРИ АВТОМАТИЗАЦИИ ПОДГОТОВКИ КОНСТРУКТОРСКОЙ ДОКУМЕНТАЦИИ
- СИСТЕМА УПРАВЛЕНИЯ НАКЛОННОЙ ПЛАТФОРМОЙ С ДВУМЯ СТЕПЕНЯМИ СВОБОДЫ ДЛЯ ИССЛЕДОВАНИЯ ЗАДАЧ ДИНАМИЧЕСКОГО МАНИПУЛИРОВАНИЯ
- УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЛАЗЕРНЫМ ИЗЛУЧЕНИЕМ ПОВЕРХНОСТИ ОБЪЕКТА ПРОИЗВОЛЬНОЙ ФОРМЫ
- АВТОМАТИЗИРОВАННАЯ СИСТЕМА ДИСТАНЦИОННОГО УПРАВЛЕНИЯ И КОНТРОЛЯ ЛАБОРАТОРНОГО ОБОРУДОВАНИЯ