Подход для активного обучения контекстных бандитов
Аннотация
Одной из проблем, которая решается при помощи обучения с подкреплением, является нахождение компромисса между тем использовать известные данные или попытаться получить новую информацию о них (exploration vs exploitation tradeoff). Многие из задач нахождения компромисса можно рассматривать эквивалентными задачи о многоруком бандите: у нас имеется N «бандитов», у каждого из которых имеется функция распределения выигрыша. На каждой итерации мы выбираем одного бандита, исходя из предыдущих знаний о каждом из них, а затем получаем некоторый выигрыш согласно соответствующему распределению. На основе предыдущей истории запросов и выигрышей формируется наши знания о бандитах. Необходимо построить стратегию, максимизирующую математическое ожидание выигрыша. В задаче контекстных бандитов у каждого из бандита есть некий контекст, и при выборе мы учитываем еще и контекст. Подходы активного обучения позволяют решать задачу нахождения максимума функция в n-мерном пространстве. Если предположить, что контексты бандитов лежат в некотором метрическом пространстве, то можно применить методы активного обучения для выбора необходимого бандита.