Выбор вспомогательных оптимизируемых величин в эволюционных алгоритмах при помощи многокритериального обучения с подкреплением
Аннотация
Существуют методы повышения эффективности эволюционных алгоритмов при помощи вспомогательных критериев. Одним из них является метод EA+RL, в котором для выбора вспомогательного критерия, используемого в качестве функции приспособленности на данном шаге алгоритма, применяется обучение с подкреплением. Цель обучения с подкреплением - максимизация суммарной награды. В качестве награды в методе EA+RL ранее использовалась скалярная величина, и приходилось ограничиваться одним способом определения награды. В данной работе предлагается использовать многомерную награду, что позволяет совмещать несколько хорошо себя зарекомендовавших одномерных функций наград. Данный подход был апробирован на примере решения модельной задачи H-IFF (Hierarchical-if-and-only-if) и показал многообещающие результаты.