ИСПОЛЬЗОВАНИЕ В СИСТЕМАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ GMM-МОДЕЛЕЙ ДЛЯ АДАПТАЦИИ АКУСТИЧЕСКИХ МОДЕЛЕЙ, ПОСТРОЕННЫХ НА ОСНОВЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
Аннотация:
Предмет исследования. Исследованы вопросы адаптации к диктору акустических моделей, построенных на основе искусственных нейронных сетей, для задачи автоматического распознавания речи. Цель адаптации к диктору заключается в улучшении точности работы системы автоматического распознавания речи при работе с конкретным диктором. Метод. Метод обучения и адаптации акустических моделей на основе глубоких нейронных сетей использует вспомогательную GMM (GaussianMixtureModels, модель смеси гауссовских распределений) и GMMD (GMM-derived, полученные с использованием GMM) признаки. Главное достоинство предложенных GMMD-признаков состоит в возможности адаптации DNN (DeepNeuralNetwork, глубокая нейронная сеть) модели посредством адаптации вспомогательной GMM-модели. Предложенный подход позволяет применять любые алгоритмы адаптации GMM для адаптации DNN-моделей и является универсальным способом переноса адаптационных техник из фреймворка GMMво фреймворк DNN-моделей. Основные результаты. Эффективность работы предлагаемого подхода проверена с использованием одного из наиболее распространенных алгоритмов адаптации GMM-моделей – MAP (MaximumAPosteriori) адаптации. Предложены и изучены разные способы интеграции предлагаемого подхода в современную архитектуру нейросетевых акустических моделей. Проведен анализ выбора типа GMM. Результаты экспериментов на корпусе TED-LIUM показали эффективность предложенного подхода: в режиме адаптации без учителя предложенный алгоритм адаптации и рассмотренные методы фьюжена позволяют достичь 11–18% относительного уменьшения пословной ошибки распознавания по сравнению с дикторо-независимой акустической моделью, построенной по традиционному рецепту на стандартных признаках, и на 3–6% – по сравнению с дикторо-адаптированной базовой моделью.
Ключевые слова:
Постоянный URL
Статьи в номере
- СУПЕРКОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ КРИТИЧЕСКИХ ЯВЛЕНИЙ В СЛОЖНЫХ СОЦИАЛЬНЫХ СИСТЕМАХ
- КОМПРЕССИЯ ПРЕДЕЛЬНО-КОРОТКИХ ИМПУЛЬСОВ СВЕТА И ГЕНЕРАЦИЯ ОДНОПОЛЯРНЫХ ИМПУЛЬСОВ ЗА СЧЕТ КОГЕРЕНТНОГО ВЗАИМОДЕЙСТВИЯ С РЕЗОНАНСНОЙ НЕЛИНЕЙНОЙ СРЕДОЙ
- ЛИДАРНЫЙ УЗЕЛ КОМБИНИРОВАННОГО СКАНИРОВАНИЯ
- СТРУЙНАЯ ПЕЧАТЬ ВЫСОКОРЕФРАКТИВНЫХ СТРУКТУР НА ОСНОВЕ ЗОЛЯ TiO2
- ВЛИЯНИЕ ВОДОРОДНОЙ ОБРАБОТКИ ОПТИЧЕСКОГО ВОЛОКНА НА ЭФФЕКТИВНОСТЬ ЗАПИСИ В НЕМ ЧИРПИРОВАННЫХ РЕШЕТОК БРЭГГА ИЗЛУЧЕНИЕМ KrF ЭКСИМЕРНОГО ЛАЗЕРА
- АЛГОРИТМ КОМПЕНСАЦИИ МУЛЬТИГАРМОНИЧЕСКИХ ВОЗМУЩЕНИЙ В ЛИНЕЙНЫХ СИСТЕМАХ С ПРОИЗВОЛЬНЫМ ЗАПАЗДЫВАНИЕМ: МЕТОД ВНУТРЕННЕЙ МОДЕЛИ
- ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА КЛАСТЕРОВ СЕРЕБРА, СФОРМИРОВАННЫХ МЕТОДОМ ИОННОГО ОБМЕНА В ФОТО-ТЕРМО-РЕФРАКТИВНОМ СТЕКЛЕ
- РАСПРЕДЕЛЕНИЕ ДИСЛОКАЦИЙ В КРИСТАЛЛАХ AlN ПРИ ВЫРАЩИВАНИИ НА ИСПАРЯЕМЫХ ПОДЛОЖКАХ SiC
- ПОЛУЧЕНИЕ ТОЛСТЫХ СЛОЕВ НИТРИДА ГАЛЛИЯ МЕТОДОМ МНОГОСТАДИЙНОГО РОСТА НА ПОДЛОЖКАХ С КОЛОННОЙ СТРУКТУРОЙ
- ОСОБЕННОСТИ ПРОВЕДЕНИЯ ИЗМЕРЕНИЙ В ЖИДКИХ СРЕДАХ МЕТОДОМ АТОМНО-СИЛОВОЙ МИКРОСКОПИИ
- НЕЧЕТКОЕ ОТОБРАЖЕНИЕ В СИСТЕМЕ СОНИФИКАЦИИ ДАННЫХ БЕСПРОВОДНОЙ СЕНСОРНОЙ СЕТИ
- АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ, ОБЕСПЕЧИВАЮЩАЯ СВОЙСТВО ПОВЕДЕНИЯ
- АВТОМАТИЗАЦИЯ ПОДБОРА ОПТИМАЛЬНОЙ ДИСЦИПЛИНЫ ОБСЛУЖИВАНИЯ ПРИ ПЕРЕДАЧЕ VОIP-ТРАФИКА
- ДИНАМИЧЕСКАЯ АВТОРИЗАЦИЯ НА ОСНОВЕ ИСТОРИИ НОВОСТНЫХ СООБЩЕНИЙ
- СТАТИСТИЧЕСКИЙ МЕТОД ИЗВЛЕЧЕНИЯ ТЕРМИНОВ ИЗ КИТАЙСКИХ ТЕКСТОВ БЕЗ СЕГМЕНТАЦИИ ФРАЗ
- ОПРЕДЕЛЕНИЕ МИКРОГЕОМЕТРИИ ФУНКЦИОНАЛЬНОЙ ПОВЕРХНОСТИ ДЕТАЛИ, ОБЕСПЕЧИВАЮЩЕЙ ТРЕБУЕМЫЕ ПОКАЗАТЕЛИ АВИАЦИОННОГО ДАТЧИКА ВИБРАЦИИ
- МОДЕЛЬ ПРОГНОЗИРОВАНИЯ РАСХОДОВ ДЛЯ ПЛАНИРОВАНИЯ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ ВУЗА
- ИМИТАЦИОННАЯ МОДЕЛЬ ВИРТУАЛЬНОГО КАНАЛА
- МЕТОДИКА ОЦЕНКИ УРОВНЯ КАЧЕСТВА МЕХАНИЧЕСКИХ ИЗДЕЛИЙ В ПРОЦЕССЕ ИХ ПРОЕКТИРОВАНИЯ
- АНТИФУНГАЛЬНАЯ АКТИВНОСТЬ ZnO, SiO2, Au И Ag АКРИЛОВЫХ НАНОКОМПОЗИТОВ
- РЕЗЕРВИРОВАНИЕ ПЕРЕДАЧ ЧЕРЕЗ АГРЕГИРОВАННЫЕ КАНАЛЫ, РАЗДЕЛЯЕМЫЕ НА ГРУППЫ
- ВЛИЯНИЕ ТОПОЛОГИЧЕСКОЙ СТРУКТУРЫ НА ДИНАМИКУ ТЕМПОРАЛЬНОЙ СЕТИ
- ПРЕДСКАЗАНИЕ ПИКОВ ЭПИДЕМИЙ ГРИППА В САНКТ-ПЕТЕРБУРГЕ С ПОМОЩЬЮ ПОПУЛЯЦИОННЫХ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ