Например, Бобцов

Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач

Аннотация:

Введение. Активное распространение носимых устройств и систем умного дома предполагает значительный рост возможных сценариев использования таких решений. Разнообразие устройств и необходимость удобного взаимодействия с ними обуславливают активное развитие подходов, реализующих различные аспекты такого взаимодействия. На сегодняшний день речь является одним из наиболее удобных человеко-машинных интерфейсов. Развитие технологий обработки и анализа аудио- и речевого сигналов позволяют успешно решать такие сложные задачи, как автоматическое распознавания речи, идентификация и верификация дикторов, детекция эмоций, пола и возраста диктора. Применимость подобных технологий предполагает наличие значительных вычислительных ресурсов, часто недоступных для носимых устройств и систем умного дома. Решение изолированных задач анализа аудио/речи значительно ограничивает сценарии человеко-машинного взаимодействия. Попытки использовать различные технологии в комбинации на одном устройстве приводят к росту требований к вычислительным ресурсам. Наибольший интерес сегодня представляют технологии многозадачного анализа аудио/речевого сигнала с пониженными требованиями к вычислительным ресурсам, позволяющие применять такие технологии в носимых устройствах и системах умного дома. Метод. Предложен метод автоматического построения иерархических многозадачных моделей анализа аудио/речевого сигнала. Метод позволяет определять совместимость решаемых задач при сохранении интегральной точности для всех задач при существенном уменьшении числа обучаемых параметров многозадачной модели и состоит из трех этапов. На этапе 1 производится обучение изолированных моделей распознавания для каждой решаемой задачи и определение метрик данных моделей, на этапе 2 выполняется определение попарной совместимости задач анализа аудио/речи, путем перебора числа общих слоев глубокой нейронной сети. На этапе 3 автоматически формируется финальная иерархическая архитектура, реализующая многозадачную модель распознавания. Основные результаты. Показано, что в сравнении с базовыми подходами разработанный метод позволил создать компактную иерархическую модель. В сравнении с набором независимых однозадачных моделей предложенная архитектура продемонстрировала уменьшение количества обучаемых параметров на 56 % при снижении точности не более 1,9 %, в то время как классическая («плоская») многозадачная архитектура демонстрирует снижение точности на 2,7 %. Применение существующих подходов по оптимизации многозадачных моделей LT4REC и Lottery Ticket Hypothesis приводят к снижению точности на 9 % и 6,5 % соответственно. Обсуждение. Результаты работы имеют практическую значимость для индустрии умных устройств (смартфонов, носимых гаджетов, умных колонок). Предложенный алгоритм позволяет создавать эффективные системы аудиоанализа, которые способны выполнять несколько функций одновременно с минимальными требованиями к вычислительным ресурсам и объемам памяти при развертывании на устройствах с ограниченными возможностями.

Ключевые слова:

Статьи в номере