ПРЕДСТАВЛЕНИЕ ДОКУМЕНТОВ В ЗАДАЧЕ КЛАСТЕРИЗАЦИИ АННОТАЦИЙ НАУЧНЫХ ТЕКСТОВ
Аннотация:
Рассматривается проблема кластеризации узкотематических текстов короткой длины, таких как аннотации к научным публикациям. Цель решения данной задачи – группировка результатов запросов в поисковых системах по научным публикациям. Использованы наблюдения, полученные при решении задачи извлечения ключевых фраз из документов. Был применен расширенный список стоп-слов, построенный автоматически для решения задачи извлечения ключевых фраз и позволивший значительно улучшить качество информации, получаемой из научных публикаций. Приводится описание процедуры построения данного списка стоп-слов. Основной задачей является исследование возможности повысить качество и (или) скорость кластеризации аннотаций с помощью вышеупомянутого списка стоп-слов, а также информации о частях речи лексем. В последнем случае для представления документов применяется словарь, содержащий не все слова коллекции, а только существительные и прилагательные, или словарь, состоящий из последовательностей существительных и прилагательных. Использованы два базовых алгоритма кластеризации: k-means и иерархическая кластеризация (метод межгрупповогосреднего). Показано, что использование расширенного списка стоп-слов и представление документов на основе существительных и прилагательных из словаря коллекции позволяют улучшить качество и скорость работы алгоритма k-means. Для метода межгруппового среднего в аналогичном случае может наблюдаться ухудшение качества кластеризации. Показано, что использование для представления документов последовательностей из существительных и прилагательных снижает качество кластеризации для обоих алгоритмов и оправдано только в тех случаях, когда требуется значительное снижение размерности пространства признаков.
Ключевые слова:
Постоянный URL
Статьи в номере
- ПЛАЗМОННЫЕ СОЛИТОНЫ, КИНКИ И ВОЛНЫ ФАРАДЕЯ В ДВУМЕРНОЙ РЕШЕТКЕ МЕТАЛЛИЧЕСКИХ НАНОЧАСТИЦ
- ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК СИГНАЛОВ СПЕКТРАЛЬНОЙ ИНТЕРФЕРЕНЦИИ В БЛИЖНЕЙ ИК ОБЛАСТИ СПЕКТРА
- ЛОГИКА С ИСКЛЮЧЕНИЕМ НА АЛГЕБРЕ ФУРЬЕ-ДУАЛЬНЫХ ОПЕРАЦИЙ: НЕЙРОСЕТЕВОЙ МЕХАНИЗМ РЕДУЦИРОВАНИЯ КОГНИТИВНОГО ДИССОНАНСА
- ИЗВЛЕЧЕНИЕ МАТЕРИАЛЬНЫХ ПАРАМЕТРОВ ПЛАЗМОННОГО МУЛЬТИСЛОЯ ИЗ КОЭФФИЦИЕНТОВ ОТРАЖЕНИЯ И ПРОХОЖДЕНИЯ
- МЕТОД ИССЛЕДОВАНИЯ ЗАВИСИМОСТИ h-ПАРАМЕТРА АНИЗОТРОПНОГО СВЕТОВОДА ОТ РАДИУСА ИЗГИБА
- ТЕХНОЛОГИЧЕСКИЕ МЕТОДЫ СНИЖЕНИЯ УРОВНЯ ОПТИЧЕСКИХ ПОТЕРЬ В МИКРОСТРУКТУРИРОВАННЫХ ВОЛОКОННЫХ СВЕТОВОДАХ
- МНОГОЗОННОЕ ПРОСВЕТЛЯЮЩЕЕ ПОКРЫТИЕ НА ПОДЛОЖКЕ ИЗ ОПТИЧЕСКОГО СУЛЬФИДА ЦИНКА
- КОНТРОЛЬ СТРУКТУРЫ РАЗЛИЧНЫХ ВИДОВ БУМАГИ МЕТОДОМ АТОМНО-СИЛОВОЙ МИКРОСКОПИИ
- ЭНЕРГОСБЕРЕГАЮЩАЯ ТЕХНОЛОГИЯ РАСПЛАВЛЕНИЯ ХИМИЧЕСКИХ ВЕЩЕСТВ СВЕТОВЫМ ИЗЛУЧЕНИЕМ
- О ТЕХНОЛОГИЧЕСКИХ НЕСОВЕРШЕНСТВАХ ГЕОМЕТРИЧЕСКИХ ПАРАМЕТРОВ СИЛОВОГО СТЕРЖНЯ ДЛЯ ЗАГОТОВКИ ОПТИЧЕСКОГО ВОЛОКНА PANDA
- ВЕРИФИКАЦИЯ ПАРАЛЛЕЛЬНЫХ АВТОМАТНЫХ ПРОГРАММ
- АНАЛИЗ ДАННЫХ НА ОСНОВЕ ПЛАТФОРМЫ SQL-MAPREDUCE
- О ВЛИЯНИИ АДАПТИВНЫХ ПОЛЬЗОВАТЕЛЬСКИХ ИНТЕРФЕЙСОВ НА НАДЕЖНОСТЬ И ЭФФЕКТИВНОСТЬ ФУНКЦИОНИРОВАНИЯ АВТОМАТИЗИРОВАННЫХ СИСТЕМ
- МЕТОД ОТОБРАЖЕНИЯ ЗАДАЧ НА КРУПНОГРАНУЛЯРНЫЕ РЕКОНФИГУРИРУЕМЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ
- ОЦЕНКА ПРИМЕНИМОСТИ МОДЕЛИ IRI-2012 ДЛЯ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ИОНОГРАММ ВЕРТИКАЛЬНОГО ЗОНДИРОВАНИЯ
- ОЦЕНКА ТОЧНОСТИ ВИЗУАЛИЗАЦИИ МЕСТОПОЛОЖЕНИЯ ОБЪЕКТА В ГЕОИНФОРМАЦИОННЫХ СИСТЕМАХ И СИСТЕМАХ ИНДИКАЦИИ НАВИГАЦИОННЫХ КОМПЛЕКСОВ ПИЛОТИРУЕМЫХ ЛЕТАТЕЛЬНЫХ АППАРАТОВ
- ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ БАКТЕРИЙ В ПРОДУКТАХ ПИТАНИЯ
- ИСПОЛЬЗОВАНИЕ КОНТЕЙНЕРА BC7 ДЛЯ ХРАНЕНИЯ ТЕКСТУР С ГЛУБИНОЙ ЦВЕТА 10 БИТ
- ПРЕДШЕСТВУЮЩАЯ И ПОСЛЕДУЮЩАЯ ФИЛЬТРАЦИЯ ШУМОВ В АЛГОРИТМАХ ВОССТАНОВЛЕНИЯ ИЗОБРАЖЕНИЙ
- ОЦЕНКА ВОЗМОЖНОСТИ ЭКРАННОЙ РЕПРОДУКЦИИ НАСЫЩЕННЫХ ПИГМЕНТОВ
- ЭКСПЛУАТАЦИОННЫЕ ХАРАКТЕРИСТИКИ РИСКА НАРУШЕНИЙ БЕЗОПАСНОСТИ ИНФОРМАЦИОННОЙ СИСТЕМЫ
- ИДЕНТИФИКАЦИЯ АНОНИМНЫХ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРНЕТ-ПОРТАЛОВ НА ОСНОВАНИИ ТЕХНИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ ХАРАКТЕРИСТИК ПОЛЬЗОВАТЕЛЯ
- МЕТОДИКА РАСЧЕТА КОЭФФИЦИЕНТОВ ОБЛУЧЕННОСТИ ЦИЛИНДРИЧЕСКОГО КОСМИЧЕСКОГО ОБЪЕКТА ПОДСВЕТКОЙ ЗЕМЛИ
- АВТОНОМИЗАЦИЯ НЕЛИНЕЙНЫХ ДИНАМИЧЕСКИХ СИСТЕМ
- СОВРЕМЕННОЕ СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ ОСНОВНЫХ ПОНЯТИЙ В ОБЛАСТИ МЕХАТРОНИКИ
- ОПЫТ ПРИМЕНЕНИЯ И ПЕРСПЕКТИВЫ ТЕХНОЛОГИИ АЛМАЗНОГО МИКРОТОЧЕНИЯ
- ОСОБЕННОСТИ ФОРМИРОВАНИЯ ПРЯМЫХ ЗУБЬЕВ ЦИЛИНДРИЧЕСКИХ КОЛЕС СТУПЕНЧАТЫМ ДОЛБЯКОМ
- ПРОБЛЕМА УЧЕТА ЗАВИСИМОСТИ КОЭФФИЦИЕНТА ОБЪЕМНОЙ ТЕПЛОЕМКОСТИ ОТ ТЕМПЕРАТУРЫ ПРИ МОДЕЛИРОВАНИИ ЛАЗЕРНО-ДУГОВОЙ НАПЛАВКИ
- МЕТОДЫ МОДЕЛИРОВАНИЯ ТЕМПЕРАТУРНОГО ПОЛЯ ПРИ БЕСКОНТАКТНОЙ ЛАЗЕРНОЙ ДЕФОРМАЦИИ ПЛАСТИНЫ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ТУРБУЛЕНТНОГО ПОТОКА ВОЗДУХА С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОТСОЕДИНЕННЫХ ВИХРЕЙ
- СТРАТЕГИЯ МАРКЕТ-МЕЙКИНГА В СИСТЕМЕ ВЫСОКОЧАСТОТНОЙ АЛГОРИТМИЧЕСКОЙ ТОРГОВЛИ
- ОТ ТРАДИЦИОННОГО ДИСТАНЦИОННОГО ОБУЧЕНИЯ К МАССОВЫМ ОТКРЫТЫМ ОНЛАЙН-КУРСАМ
- ОБРАТИМАЯ ФОТОДЕСТРУКЦИЯ НАНОЧАСТИЦ СЕРЕБРА В ФОТО-ТЕРМО-РЕФРАКТИВНЫХ СТЕКЛАХ
- УРАВНЕНИЯ ПЕРЕНОСА ИЗЛУЧЕНИЯ В ИНФРАКРАСНОЙ ТОМОГРАФИИ В СЛУЧАЕ АКТИВНО-ПАССИВНОЙ ДИАГНОСТИКИ И ВЕЕРНОГО СКАНИРОВАНИЯ
- ПОЛУЧЕНИЕ СПЕКТРОВ ЭЛЕКТРОФИЗИОЛОГИЧЕСКИХ СИГНАЛОВ В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ