Подход для активного обучения контекстных бандитов

Сборник тезисов

Конференция:V Всероссийский конгресс молодых ученых

Раздел:Информационные и интеллектуальные системы и технологии

Рубрика:Технологии программирования, искусственный интеллект, биоинформатика

Год:2016

Подход для активного обучения контекстных бандитов

Москаленко Юрий Владимирович

Фильченков Андрей Александрович

УДК:004.8

Скачать PDF

Аннотация

Одной из проблем, которая решается при помощи обучения с подкреплением, является нахождение компромисса между тем использовать известные данные или попытаться получить новую информацию о них (exploration vs exploitation tradeoff). Многие из задач нахождения компромисса можно рассматривать эквивалентными задачи о многоруком бандите: у нас имеется N «бандитов», у каждого из которых имеется функция распределения выигрыша. На каждой итерации мы выбираем одного бандита, исходя из предыдущих знаний о каждом из них, а затем получаем некоторый выигрыш согласно соответствующему распределению. На основе предыдущей истории запросов и выигрышей формируется наши знания о бандитах. Необходимо построить стратегию, максимизирующую математическое ожидание выигрыша. В задаче контекстных бандитов у каждого из бандита есть некий контекст, и при выборе мы учитываем еще и контекст. Подходы активного обучения позволяют решать задачу нахождения максимума функция в n-мерном пространстве. Если предположить, что контексты бандитов лежат в некотором метрическом пространстве, то можно применить методы активного обучения для выбора необходимого бандита.

Подход для активного обучения контекстных бандитов

Подход для активного обучения контекстных бандитов

Аннотация

Постоянный URL

Материалы конференций

Подход для активного обучения контекстных бандитов

Подход для активного обучения контекстных бандитов

Аннотация

Постоянный URL

Поделиться

Материалы конференций