Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач
Аннотация:
Введение. Активное распространение носимых устройств и систем умного дома предполагает значительный рост возможных сценариев использования таких решений. Разнообразие устройств и необходимость удобного взаимодействия с ними обуславливают активное развитие подходов, реализующих различные аспекты такого взаимодействия. На сегодняшний день речь является одним из наиболее удобных человеко-машинных интерфейсов. Развитие технологий обработки и анализа аудио- и речевого сигналов позволяют успешно решать такие сложные задачи, как автоматическое распознавания речи, идентификация и верификация дикторов, детекция эмоций, пола и возраста диктора. Применимость подобных технологий предполагает наличие значительных вычислительных ресурсов, часто недоступных для носимых устройств и систем умного дома. Решение изолированных задач анализа аудио/речи значительно ограничивает сценарии человеко-машинного взаимодействия. Попытки использовать различные технологии в комбинации на одном устройстве приводят к росту требований к вычислительным ресурсам. Наибольший интерес сегодня представляют технологии многозадачного анализа аудио/речевого сигнала с пониженными требованиями к вычислительным ресурсам, позволяющие применять такие технологии в носимых устройствах и системах умного дома. Метод. Предложен метод автоматического построения иерархических многозадачных моделей анализа аудио/речевого сигнала. Метод позволяет определять совместимость решаемых задач при сохранении интегральной точности для всех задач при существенном уменьшении числа обучаемых параметров многозадачной модели и состоит из трех этапов. На этапе 1 производится обучение изолированных моделей распознавания для каждой решаемой задачи и определение метрик данных моделей, на этапе 2 выполняется определение попарной совместимости задач анализа аудио/речи, путем перебора числа общих слоев глубокой нейронной сети. На этапе 3 автоматически формируется финальная иерархическая архитектура, реализующая многозадачную модель распознавания. Основные результаты. Показано, что в сравнении с базовыми подходами разработанный метод позволил создать компактную иерархическую модель. В сравнении с набором независимых однозадачных моделей предложенная архитектура продемонстрировала уменьшение количества обучаемых параметров на 56 % при снижении точности не более 1,9 %, в то время как классическая («плоская») многозадачная архитектура демонстрирует снижение точности на 2,7 %. Применение существующих подходов по оптимизации многозадачных моделей LT4REC и Lottery Ticket Hypothesis приводят к снижению точности на 9 % и 6,5 % соответственно. Обсуждение. Результаты работы имеют практическую значимость для индустрии умных устройств (смартфонов, носимых гаджетов, умных колонок). Предложенный алгоритм позволяет создавать эффективные системы аудиоанализа, которые способны выполнять несколько функций одновременно с минимальными требованиями к вычислительным ресурсам и объемам памяти при развертывании на устройствах с ограниченными возможностями.
Ключевые слова:
Постоянный URL
Статьи в номере
- Флуоресцентные исследования природных фотосенсибилизаторов в онкологии и антимикробной терапии
- Обзор методов глубокого обучения для обработки видеоданных в фотоплетизмографии
- Влияние термообработки на рост и люминесцентные свойства квантовых точек CsPbI3 во фторофосфатном стекле
- Исследование проводимости нанопипеток в зависимости от их формы и размеров
- Теплопроводность многослойных наносвитков из гексагонального нитрида бора
- Интегрированный алгоритм управления для избегания препятствий и сингулярностей в роботе-манипуляторе
- Метод автоматического формирования информативного пространства для выявления событий информационной безопасности в корпоративных компьютерных сетях
- Спектральные многополосные рекуррентные нейронные сети для моделирования компрессоров динамического диапазона методом «черного ящика» (на англ.яз.)
- Обнаружение сетевых аномалий в среде Интернета вещей с использованием модифицированных статистических критериев и ансамблевых методов
- Автоматическое обнаружение паттернов проектирования программного обеспечения с использованием языковой модели, основанной на архитектуре трансформера (на англ.яз.)
- Предсказание связей в эго-графах с GNN (на англ.яз.)
- Многозадачный анализ психологического портрета человека на основе текстовых данных с применением полуконтролируемого обучения
- Моделирование и оптимизация информационных потоков электронного документооборота в условиях угроз информационной безопасности
- Последовательно-параллельная архитектура для реализации на программируемых логических интегральных схемах нейронных сетей, обучаемых в реальном времени по алгоритму обратного распространения ошибки
- Подход к обнаружению DGA-доменов на основе контекстного обучения больших языковых моделей
- Анализ эффективности оптимизации поведенческих описаний аппаратуры в логических синтезаторах для FPGA
- Сфероидальные модели рудных месторождений в рамках гравитационной томографии
- Прогнозирование максимальных напряжений в системе «вал-вкладыш» с помощью нейронной сети
- Критерии оценки и метод оптимизации избыточности видеоизображений в системах наблюдения
- Генерация пространственно-временных рядов сетевой нагрузки в задачах граничных вычислений
- Применение гибридных методов искусственного интеллекта для практических производственных задач в условиях труднодоступности обучающих данных
- Реализация и исследование резервуарного вычислителя на основе аппаратной модели трехэлементного импульсного нейрона
- Метрологический анализ бесцентровой схемы контроля овальности крупногабаритных оболочек вращения
- Забывчивая подпись на основе теории изогений эллиптических кривых