СТРУКТУРИРОВАННОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ ДЛЯ ОПТИМАЛЬНОГО ПО ВРЕМЕНИ ПОЛЕТА КВАДРОКОПТЕРА
Аннотация:
Проблема синтеза реактивного, оптимального по времени управления для квадрокоптеров усугубляется их сложной неполноприводной динамикой и практической невозможностью точного решения краевых задач на борту в реальном времени. Для преодоления этих проблем предложен фреймворк обучения с подкреплением, позволяющий агенту автономно осваивать стратегии точного достижения путевых точек в свободном пространстве. Центральными элементами предлагаемого подхода являются: (1) новаторская каскадная архитектура актора, заимствующая концепцию раздельного управления позицией и скоростью; (2) продуманная композитная функция вознаграждения с ключевыми радиальными слагаемыми скорости и ускорения, направляющая агента на максимально быстрое продвижение к цели и выполнение (bang-bang-like) маневров с высокой энергетической эффективностью. Результаты всестороннего количественного сравнения с современными методами подтверждают превосходство: агент обеспечивает плавность управляющих сигналов, что гарантирует оптимальность траекторий по времени и их соответствие заданному маршруту с минимальными отклонениями.
Ключевые слова:
Постоянный URL
Статьи в номере
- МНОГОМОДАЛЬНЫЙ КОРПУС ДАННЫХ ВЗАИМОДЕЙСТВИЯ УЧАСТНИКОВ ВИРТУАЛЬНОЙ КОММУНИКАЦИИ ENERGI
- ОБЩАЯ АРХИТЕКТУРА РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ КОМПЛЕКСНОГО МОДЕЛИРОВАНИЯ ДЛЯ ОЦЕНИВАНИЯ УСТОЙЧИВОСТИ ЛЕСНЫХ ЭКОСИСТЕМ
- ПРОГРАММНЫЙ ЭМУЛЯТОР ЦИФРОВОГО ПРОЦЕССОРА ЭЛЕКТРОННОЙ ВЫЧИСЛИТЕЛЬНОЙ МАШИНЫ
- АЛГОРИТМЫ УПРАВЛЕНИЯ МНОГОАГЕНТНОЙ ФОРМАЦИЕЙ ПРИ СОГЛАСОВАННОМ СЛЕДОВАНИИ ПО МАРШРУТАМ
- РАЗРАБОТКА БИБЛИОТЕКИ ЭЛЕМЕНТОВ МУЛЬТИСВЯЗНЫХ БОНД-ГРАФОВ ДЛЯ МОДЕЛИРОВАНИЯ СИСТЕМ СО МНОЖЕСТВОМ ТЕЛ
- ОЦЕНКА РАДИАЦИОННО-НАВЕДЕННЫХ ПОТЕРЬ В ВОЛОКОННО-ОПТИЧЕСКИХ СИСТЕМАХ