КЛАСТЕРИЗАЦИЯ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СЕМАНТИКО-СИНТАКСИЧЕСКИХ СВЯЗЕЙ СЛОВ
Аннотация:
Предмет исследования. Выполнено исследование метода повышения показателей качества кластеризации текстов на естественном языке. Основное внимание уделено выделению признаков, составляющих математическую модель текстов. Для кластеризации полученного векторного представления текстов использовался метод k-means. Метод. Предложенный аналитический подход основан на использовании семантико-синтаксических признаков кластеризируемых текстов. Выделение признаков проведено с помощью Stanford CoreNLP Toolkit. Некоторые связи между словами текстов в представлении «Enhanced++ Dependencies» вместе со связывающими их словами кодируются. На основании частот их встречаемости в текстах вычисляются значения семантико-синтаксических признаков. Основные результаты. Эксперимент по сравнению показателей качества прототипа, разработанного на основе предложенного метода, и системы кластеризации, на основе статистических признаков, показал, что использование предложенного метода позволяет сократить количество ошибок кластеризации в проведенном эксперименте более чем на 15 %. Практическая значимость. Для получения семантико-синтаксических признаков текстов не требуется предобучение. Рассматриваемый подход может быть использован для повышения показателей качества кластеризации в условиях отсутствия больших корпусов текстов, которые необходимы для предобучения статистических моделей языка на основе «word embeddings».
Ключевые слова:
Постоянный URL
Статьи в номере
- СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОЦЕНКИ ПАРАМЕТРА ФРИДА(на англ. яз.)
- ИССЛЕДОВАНИЕ ИНТЕРФЕРЕНЦИИ СЛАБЫХ КОГЕРЕНТНЫХ МНОГОМОДОВЫХ СОСТОЯНИЙ ДЛЯ ЗАДАЧ КВАНТОВОЙ КОММУНИКАЦИИ С НЕДОВЕРЕННЫМ ПРИЕМНЫМ УЗЛОМ
- ЮСТИРОВКА ЛАЗЕРНОГО ДИОДНОГО МОДУЛЯ С ВОЛОКОННЫМ ВЫХОДОМ
- ВЛИЯНИЕ ДОБАВОК ОКСИДОВ НА АП-КОНВЕРСИОННУЮ ЛЮМИНЕСЦЕНЦИЮ ИОНОВ ЭРБИЯ В ЩЕЛОЧНОГЕРМАНАТНЫХ СТЕКЛАХ
- МИНИМИЗАЦИЯ УРОВНЯ СОБСТВЕННЫХ ШУМОВ МАССИВА ВОЛОКОННО-ОПТИЧЕСКИХ ИНТЕРФЕРОМЕТРИЧЕСКИХ ДАТЧИКОВ ПУТЕМ РЕГУЛИРОВКИ ПАРАМЕТРОВ КАСКАДА ОПЕРАЦИОННЫХ УСИЛИТЕЛЕЙ.
- ОЦЕНКА КОЖНОГО КРОВОТОКА НИЖНИХ КОНЕЧНОСТЕЙ МЕТОДОМ ДВУМЕРНОЙ ФОТОПЛЕТИЗМОГРАФИИ
- МЕТОД ПРОГРАММНОЙ КОРРЕКЦИИ АБЕРРАЦИОННЫХ ИСКАЖЕНИЙ ИЗОБРАЖЕНИЯ В МИКРОСКОПИИ СТРУКТУРИРОВАННОГО ОСВЕЩЕНИЯ
- ПОСТРОЕНИЕ 3D-МОДЕЛИ ИЗОБРАЖЕНИЯ ОБЪЕМНОЙ ОТРАЖАТЕЛЬНОЙ ГОЛОГРАММЫ МЕТОДОМ ФОТОГРАММЕТРИИ
- МЕТОДЫ ОПТИМИЗАЦИИ ИСХОДНЫХ ОПТИЧЕСКИМ СХЕМ ЛИТОГРАФИЧЕСКИХ ОБЪЕКТИВОВ(на англ. яз.)
- НЕПОРАЖАЮЩЕЕ ВОЗДЕЙСТВИЕ НАПРАВЛЕННЫМ ОПТИЧЕСКИМ ИЗЛУЧЕНИЕМ НА ПРИБОРЫ СО СВЕТОЧУВСТВИТЕЛЬНЫМИ СЕНСОРАМИ
- СИНТЕЗ РОБАСТНОГО ДИНАМИЧЕСКОГО РЕГУЛЯТОРА ДЛЯ УПРАВЛЕНИЯ ПОЛОЖЕНИЕМ ШАРА НА ПОВОРОТНОЙ ПЛАТФОРМЕ
- МОРФОЛОГИЯ И ОПТИЧЕСКИЕ СВОЙСТВА ПЛЕНОК AlN НА САПФИРЕ
- ИМИТАЦИОННАЯ МОДЕЛЬ РЕЗЕРВИРОВАННОГО МЕЖМАШИННОГО ОБМЕНА С УЧЕТОМ ОРГАНИЗАЦИИ ОЧЕРЕДЕЙ НА ДОСТУП К АГРЕГИРОВАННЫМ КАНАЛАМ
- СУБПОЛОСНЫЙ АНАЛИЗ ИЗОБРАЖЕНИЙ МОРСКОЙ ПОВЕРХНОСТИ НА ОСНОВЕ КОСИНУС-ПРЕОБРАЗОВАНИЯ
- АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ СРЕДЫ РАЗРАБОТКИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ С ПОДДЕРЖКОЙ СТРУКТУРНОГО РЕДАКТИРОВАНИЯ
- РЕАЛИЗАЦИЯ ПРОТОКОЛА ОБМЕНА ДАННЫМИ МЕЖДУ ПРОГРАММНЫМИ АГЕНТАМИ В ОБЛАЧНОЙ ИНФРАСТРУКТУРЕ В ГЕОГРАФИЧЕСКИ РАСПРЕДЕЛЕННЫХ ЦЕНТРАХ ОБРАБОТКИ ДАННЫХ
- ИДЕНТИФИКАЦИЯ СТАДИИ ДЕГРАДАЦИИ ОБОРУДОВАНИЯ В СИСТЕМАХ СЕРВИСНОГО ОБСЛУЖИВАНИЯ ПРЕВЕНТИВНОГО ТИПА
- ЭНЕРГЕТИЧЕСКИЙ АНАЛИЗ БИОИНСПИРИРОВАННОГО МЕХАНИЗМА НОГИ ГАЛОПИРУЮЩЕГО РОБОТА-ГЕПАРДА
- МОДЕЛИРОВАНИЕ РЕЗОНАНСНЫХ ЭФФЕКТОВ В ПОЗВОНОЧНИКЕ С ДОПОЛНИТЕЛЬНЫМИ ФИКСИРУЮЩИМИ ЭЛЕМЕНТАМИ
- ПОВЫШЕНИЕ УРОВНЯ РАСПОЗНАВАНИЯ УТЕЧЕК ИНФОРМАЦИИ ПО СТОРОННИМ КАНАЛАМ С ИСПОЛЬЗОВАНИЕМ ВЭЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
- МОДЕЛИРОВАНИЕ ПОВЕДЕНИЯ НЕОРГАНИЗОВАННОЙ ГРУППЫ В СЛУЧАЕ ЧРЕЗВЫЧАЙНОЙ СИТУАЦИИ
- ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ВОССТАНОВЛЕНИЯ СИГНАЛА ПРИ ПРОТЯЖЕННЫХ ПРОПУСКАХ И РЕДКОМ ПОСТУПЛЕНИИ ИЗМЕРЕНИЙ
- МОДЕЛИРОВАНИЕ БЕСПРОВОДНЫХ СЕТЕЙ В СРЕДЕ OMNET++ С ИСПОЛЬЗОВАНИЕМ INET FRAMEWORK
- ПРОЕКТИРОВАНИЕ ОБРАЗОВАТЕЛЬНОЙ СРЕДЫ С ПОМОЩЬЮ СМАРТ-КОНТРАКТОВ БЛОКЧЕЙНА ETHEREUM
- РАЗРАБОТКА ПОРТАЛОВ ДЛЯ УПРАВЛЕНИЯ ОБЛАЧНЫМИ СЕРВИСАМИ В СОСТАВЕ ЦЕНТРА ОБРАБОТКИ И ХРАНЕНИЯ ДАННЫХ