Семантическая сегментация веб-гипертекста на основе дискретных математических моделей
Аннотация
Основой различных современных подходов к эффективному поиску и извлечению информации в Интернете является построение семантического информационного слоя над гипертекстовым массивом. В данной статье рассматриваются подходы к семантическому насыщению гипертекста на основе дискретных математических моделей. Базой для решения задачи придания семантики гипертексту служит кластеризация веб-документов по различным признакам, включая их семантическую близость. В данной работе предложен метод построения семантических кластеров в гипертекстовой структуре веб-сайта на основе учета статистики переходов пользователей между узлами. Кластеризация документов по отслеживаемым маршрутам пользователей применяется к графовой модели гипертекстовой структуры веб-сайта. Предлагаемый метод семантической кластеризации основан на алгоритме кластеризации взвешенного графа BorderFlow. Для автоматизированного построения графовой модели гипертекста, а также применения к нему разработанных методов кластеризации, спроектирован и реализован программный комплекс. В области семантического веба, результаты могут использоваться для программного семантического анализа веб-документов. В веб-разработке и проектировании, результаты исследования помогают эффективно решать задачу построения адаптивной навигации, а также помогают при реинжиниринге веб-сайта и оптимизации его логической структуры для пользователей.