Например, Бобцов

K-sparse энкодер для эффективного информационного поиска

Аннотация:

Введение. Современные промышленные поисковые системы, как правило, используют двухстадийный конвейер — быстрый отбор кандидатов и последующее ранжирование, что неизбежно ведет к потере части релевантных документов из-за простых алгоритмов на первой стадии. В работе предлагается одностадийный подход, сочетающий преимущества плотных моделей семантического поиска и эффективности инвертированных индексов. Ключевым компонентом решения является K-sparse энкодер, применяемый для преобразования плотных векторов в разреженные, совместимые с инвертированными индексами библиотеки Lucene. Метод. В отличие от ранее исследованного идентифицируемого вариационного автоэнкодера, предлагаемая модель основана на автоэнкодере с функцией активации TopK, которая явно фиксирует число ненулевых координат на этапе обучения. Такая функция активации делает процесс получения разреженного вектора дифференцируемым, устраняет необходимость постобработки и упрощает функцию потерь до суммы ошибки восстановления и компоненты, сохраняющей относительные расстояния между плотными и разреженными представлениями. Обучение выполнялось на подмножестве из 300 тыс. документов набора данных MS MARCO с использованием PyTorch и GPU NVIDIA L4. Основные результаты. Предложенная модель достигает 96,6 % качества исходной плотной модели по метрике NDCG@10 (0,57 против 0,59) на наборе данных SciFact при 80 % разреженности векторов. Дополнительно показано, что дальнейшее увеличение разреженности снижает объем индекса и ускоряет время поиска, сохраняя приемлемое качество поиска. По используемой памяти решение превосходит графовый алгоритм Hierarchical Navigable Small World, а по скорости приближается к нему при высоких уровнях разреженности. Обсуждение. Работа подтверждает применимость предложенного подхода для поиска неструктурированных данных. Прямое управление степенью разреженности дает возможность балансировать между качеством, задержкой поиска и требованиями к памяти. Благодаря использованию инвертированного индекса на базе библиотеки Lucene, предлагаемое решение может быть эффективно применено в промышленных поисковых системах. В качестве направлений дальнейших исследований рассматриваются интерпретируемость извлекаемых признаков и повышение качества поиска при значительной разреженности представлений.

Ключевые слова:

Статьи в номере