ФЕНОМЕНОЛОГИЧЕСКОЕ ОПИСАНИЕ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ ИНТЕРНЕТ-ДОКУМЕНТОВ
Аннотация:
Проанализировано состояние сети Интернет как хранилища информационных ресурсов с точки зрения бота — программы, занимающейся сбором данных в целях мониторинга ресурсов, наполнения поисковой системы или других коммерческих или исследовательских целях. Предложен подход к описанию исследуемой проблемы через совокупность феноменов, возникающих при сборе документов в Интернете. Описанные феномены необходимо учитывать при построении систем мониторинга либо поисковых систем. Приведен ряд особенностей, возникающих при веб-скрейпинге, харвестинге и в других случаях использования ботов для сбора данных в сети Интернет. Описаны проблемы использования поддоменов, рекурсивных поддоменов, технологий динамически загружаемого контента, поисковой оптимизации текстового контента и других. Показано, что задача сбора данных с интернет-ресурсов является не только технологической, но и в большей степени наукоемкой, а поскольку исследования находятся в активной фазе, для них не существует „коробочного“ решения. Статья будет полезна исследователям в области развития Интернета, разработчикам поисковых систем, специалистам по дата-ретривингу и интернет-технологиям, а также специалистам в области создания и поддержки интернет-ресурсов и в области интернет-маркетинга.
Ключевые слова:
Постоянный URL
Статьи в номере
- ПРИМЕНЕНИЕ МЕТОДОВ BIG DATA ДЛЯ СРАВНЕНИЯ ДАННЫХ ГЕОМАГНИТНЫХ ОБСЕРВАТОРИЙ СЕТИ INTERMAGNET
- ЦИФРОВАЯ РЕАЛИЗАЦИЯ ПЕРЕМЕННОГО ЗАПАЗДЫВАНИЯ В СИСТЕМАХ МОДЕЛИРОВАНИЯ И УПРАВЛЕНИЯ
- ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ МОДЕЛЕЙ РАБОЧИХ МЕСТ ПОВЕРКИ СРЕДСТВ ИЗМЕРЕНИЙ КАК НЕСТАЦИОНАРНЫХ СИСТЕМ ОБСЛУЖИВАНИЯ
- АНАЛИТИЧЕСКИЙ ПОДХОД К ВЫБОРОЧНОМУ ПОИСКУ ФУНКЦИЙ ВЕРОЯТНОСТЕЙ СОСТОЯНИЙ В МАРКОВСКИХ ЦЕПЯХ
- АЛГОРИТМ ПАРАМЕТРИЗАЦИИ НЕСТАЦИОНАРНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ ДИНАМИЧЕСКОГО РЕГУЛЯТОРА
- ОЦЕНКА ТВЕРДОСТИ МАТЕРИАЛОВ ПРИ ИСПЫТАНИИ НА ИЗНОС МЕТОДОМ ХОРДЫ
- ИСПОЛЬЗОВАНИЕ РОЕВЫХ АЛГОРИТМОВ ПРИ ТЕХНОЛОГИЧЕСКОЙ ПОДГОТОВКЕ ПРОИЗВОДСТВА
- УКАЗАТЕЛЬ СТАТЕЙ, ОПУБЛИКОВАННЫХ в 2023 г.