АВТОМАТИЧЕСКАЯ СУММАРИЗАЦИЯ ВЕБ-ФОРУМОВ КАК ИСТОЧНИКОВ ПРОФЕССИОНАЛЬНО ЗНАЧИМОЙ ИНФОРМАЦИИ
Аннотация:
Предмет исследования. Конкурентным преимуществом современного специалиста является максимально широкий охват источников информации, полезных с точки зрения получения и освоения актуальной профессионально значимой информации. Среди таких источников значительное место занимают профессиональные веб-форумы. В статье рассматривается задача автоматической суммаризации текста форума, т.е. выделения тех его фрагментов, которые содержат профессионально значимую информацию. Метод. Исследование строится на базе статистического анализа текстов форумов посредством машинного обучения.Для исследований отобраны шесть веб-форумов, тематикой которых являются аспекты технологий различных предметных областей. Разметка форумов проводилась экспертным путем. С использованием различных методов машинного обучения построены модели, отражающие функциональную связь между оцениваемыми характеристиками качества извлечения профессионально значимой информации и признаками постов. Для оценки качества моделей использованы кумулятивная метрика NDCG и ее дисперсия. Основные результаты. Показано, что в оценке эффективности извлечения профессионально значимой информации важную роль играет контекст запроса. Отобраны характерные для извлечения профессионально значимой информацииконтексты запросов, отражающие различные трактовки информационной потребности пользователей, обозначенные терминами релевантность и информативность. Построены шкалы для их оценок, соответствующие общемировым подходам. Экспериментально подтверждено, что результаты суммаризации форумов, выполняемой экспертами вручную, существенно зависят от контекста запроса. Показано, что в общей оценке эффективности извлечения профессионально значимой информации релевантность достаточно хорошо описывается линейной комбинацией признаков, а для оценки информативности уже требуется их нелинейная комбинация. При этом при оценке релевантности ведущую роль играют признаки, связанные с ключевыми словами, а при оценке информативности на первый план выступают характеристики текста поста в целом, а также признаки, связанные со структурой треда как текста и как социального графа. Показано, что эффективность извлечения информативных постов слабо зависит от способа задания ключевых слов, в то время как для извлечения релевантных постов такая зависимость существенна. Выявлен способ выделения ключевых слов, наиболее эффективный для реальных приложений. Показано, что при выделении релевантных постов линейные методы выигрывают в эффективности по сравнению с нелинейными, а модель LDA занимает промежуточное положение; в то же время при выделении информативных постов линейные и нелинейные методы идентичны по эффективности, а модель LDA значительно уступает им обоим. Предложена содержательная модель, позволяющая объяснить полученные результаты. Практическая значимость. Полученные результаты могут служить основой для построения и новых и адекватного применения существующих алгоритмов суммаризации веб-форумов, что позволит существенно сократить временные и ресурсные затраты пользователя на получение и изучение максимально свежей профессионально значимой информации.
Ключевые слова:
Постоянный URL
Статьи в номере
- АНАЛИЗ МЕТОДОВ МНОГОМОДАЛЬНОГО ОБЪЕДИНЕНИЯ ИНФОРМАЦИИ ДЛЯ АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ РЕЧИ
- АНАЛОГО-ЦИФРОВОЕ ПРЕОБРАЗОВАНИЕ СИГНАЛОВ С УГЛОВОЙ МАНИПУЛЯЦИЕЙ ДЛЯ ПРОГРАММНО-ОПРЕДЕЛЯЕМЫХ РАДИОСИСТЕМ
- КВАНТОВО-МЕХАНИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННОЙ И ЗОННОЙ СТРУКТУРЫ СЦИНТИЛЛЯЦИОННОГО КРИСТАЛЛА Y3AL5O12
- ИССЛЕДОВАНИЕ СЛОЯ КРАСИТЕЛЯ МЕТОДОМ СПЕКТРОСКОПИИ НАРУШЕННОГО ПОЛНОГО ВНУТРЕННЕГО ОТРАЖЕНИЯ
- ИССЛЕДОВАНИЕ ЭФФЕКТА ВЛИЯНИЯ УГЛА ОСВЕЩЕНИЯ НА СПЕКТРЫ ОТРАЖЕНИЯ ПОВЕРХНОСТИ НЕРЖАВЕЮЩЕЙ СТАЛИ ПРИ ОКИСЛЕНИИ ИМПУЛЬСНЫМ ЛАЗЕРНЫМ ИЗЛУЧЕНИЕМ
- ОСОБЕННОСТИ ЗАПИСИ НАЛОЖЕННЫХ ГОЛОГРАММ В ФОТО-ТЕРМО-РЕФРАКТИВНОМ СТЕКЛЕ
- МЕТОД ОПРЕДЕЛЕНИЯ МАСШТАБНОГО КОЭФФИЦИЕНТА ЭЛЕКТРООПТИЧЕСКОГО МОДУЛЯТОРА ВОЛОКОННО-ОПТИЧЕСКОГО ГИРОСКОПА
- ИССЛЕДОВАНИЕ ВЛИЯНИЯ УГЛА ПОЛИРОВКИ ТОРЦОВ АНИЗОТРОПНЫХ ВОЛНОВОДОВ НА ПРЕОБРАЗОВАНИЕ СОСТОЯНИЯ ПОЛЯРИЗАЦИИ ИЗЛУЧЕНИЯ
- РЕШЕНИЕ ПРОБЛЕМЫ СИГНАЛЬНОЙ НЕОПРЕДЕЛЕННОСТИ ПРИ АНАЛИТИЧЕСКОМ КОНСТРУИРОВАНИИ ПОСЛЕДОВАТЕЛЬНОГО КОМПЕНСАТОРА В ЗАДАЧЕ УПРАВЛЕНИЯ ПЬЕЗОПРИВОДОМ
- МЕТОД ДИНАМИЧЕСКОГО ВЫБОРА ВСПОМОГАТЕЛЬНЫХ КРИТЕРИЕВ В МНОГОКРИТЕРИАЛЬНЫХ ЭВОЛЮЦИОННЫХ АЛГОРИТМАХ
- ИССЛЕДОВАНИЕ ДОСТУПНОСТИ УДАЛЕННЫХ УСТРОЙСТВ БЕСПРОВОДНЫХ СЕТЕЙ
- ИЕРАРХИЧЕСКИЙ АДАПТИВНЫЙ АЛГОРИТМ ШАБЛОННОГО ПОИСКА ДЛЯ ОЦЕНКИ ДВИЖЕНИЯ ПРИ АНАЛИЗЕ ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
- АЛГОРИТМ АУТЕНТИФИКАЦИИ УЧАСТНИКОВ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ ПРИ УДАЛЕННОЙ ЗАГРУЗКЕ ОПЕРАЦИОННОЙ СИСТЕМЫ НА ТОНКИЙ КЛИЕНТ
- МЕТОД ПРОВЕДЕНИЯ ПОСТИНЦИДЕНТНОГО ВНУТРЕННЕГО АУДИТА СРЕДСТВ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ НА ОСНОВЕ ГРАФОВ
- ЭКОЛОГИЧЕСКИ ЧИСТЫЙ СПОСОБ СЖИГАНИЯ ГАЗООБРАЗНОГО ТОПЛИВА С ПРИМЕНЕНИЕМ КВАЗИОПТИЧЕСКОГО СВЧ-ПУЧКА
- КОНЕЧНЫЕ ЦЕПИ МАРКОВА В МОДЕЛЬНОМ ПРЕДСТАВЛЕНИИ ДЕЯТЕЛЬНОСТИ ЧЕЛОВЕКА-ОПЕРАТОРА В КВАЗИСТАТИЧЕСКОЙ ФУНКЦИОНАЛЬНОЙ СРЕДЕ
- ОЦЕНКА ПОГРЕШНОСТЕЙ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ СИЛЬНО АНОМАЛЬНОГО ГРАВИТАЦИОННОГО ПОЛЯ ЗЕМЛИ
- МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЕМКОСТНЫХ ГРЕБЕНЧАТЫХ ПРЕОБРАЗОВАТЕЛЕЙ МИКРОМЕХАНИЧЕСКОГО ГИРОСКОПА RR-ТИПА С УЧЕТОМ ВИБРАЦИОННЫХ ВОЗДЕЙСТВИЙ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ РЕФРАКЦИИ УДАРНОЙ ВОЛНЫ НА НАКЛОННОМ КОНТАКТНОМ РАЗРЫВЕ
- СПОСОБ ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ОБОРУДОВАНИЯ В ПРОЦЕССЕ ТЕХНОЛОГИЧЕСКОЙ ПОДГОТОВКИ ПРОИЗВОДСТВА
- АЛГОРИТМ УЛУЧШЕНИЯ ИДЕНТИФИЦИРУЮЩИХ СВОЙСТВ В ЗАДАЧАХ ОЦЕНКИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ
- ОЦЕНКА ГИСТОГРАММ РАСПРЕДЕЛЕНИЯ ПРИРАЩЕНИЙ КООРДИНАТ ЦВЕТНОСТИ ДЛЯ СРЕДСТВА ОТОБРАЖЕНИЯ ИНФОРМАЦИИ
- КОНДУКТОМЕТРИЧЕСКОЕ БИОТЕСТИРОВАНИЕ В ПРИМЕНЕНИИ К ОЦЕНКЕ ПРО- И АНТИБАКТЕРИАЛЬНЫХ СВОЙСТВ КАТОЛИТОВ И АНОЛИТОВ
- О РАВНОМЕРНОСТИ ЗАСВЕТКИ РАСТРА ПРИ ЛАЗЕРНОМ СКАНИРОВАНИИ