Например, Бобцов

ФЕНОМЕНОЛОГИЧЕСКОЕ ОПИСАНИЕ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ ИНТЕРНЕТ-ДОКУМЕНТОВ

Аннотация:

Проанализировано состояние сети Интернет как хранилища информационных ресурсов с точки зрения бота — программы, занимающейся сбором данных в целях мониторинга ресурсов, наполнения поисковой системы или других коммерческих или исследовательских целях. Предложен подход к описанию исследуемой проблемы через совокупность феноменов, возникающих при сборе документов в Интернете. Описанные феномены необходимо учитывать при построении систем мониторинга либо поисковых систем. Приведен ряд особенностей, возникающих при веб-скрейпинге, харвестинге и в других случаях использования ботов для сбора данных в сети Интернет. Описаны проблемы использования поддоменов, рекурсивных поддоменов, технологий динамически загружаемого контента, поисковой оптимизации текстового контента и других. Показано, что задача сбора данных с интернет-ресурсов является не только технологической, но и в большей степени наукоемкой, а поскольку исследования находятся в активной фазе, для них не существует „коробочного“ решения. Статья будет полезна исследователям в области развития Интернета, разработчикам поисковых систем, специалистам по дата-ретривингу и интернет-технологиям, а также специалистам в области создания и поддержки интернет-ресурсов и в области интернет-маркетинга.

Ключевые слова:

Статьи в номере