Например, Бобцов

ИСПОЛЬЗОВАНИЕ В СИСТЕМАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ GMM-МОДЕЛЕЙ ДЛЯ АДАПТАЦИИ АКУСТИЧЕСКИХ МОДЕЛЕЙ, ПОСТРОЕННЫХ НА ОСНОВЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

Аннотация:

Предмет исследования. Исследованы вопросы адаптации к диктору акустических моделей, построенных на основе искусственных нейронных сетей, для задачи автоматического распознавания речи. Цель адаптации к диктору заключается в улучшении точности работы системы автоматического распознавания речи при работе с конкретным диктором. Метод. Метод обучения и адаптации акустических моделей на основе глубоких нейронных сетей использует вспомогательную GMM (GaussianMixtureModels, модель смеси гауссовских распределений) и GMMD (GMM-derived, полученные с использованием GMM) признаки. Главное достоинство предложенных GMMD-признаков состоит в возможности адаптации DNN (DeepNeuralNetwork, глубокая нейронная сеть) модели посредством адаптации вспомогательной GMM-модели. Предложенный подход позволяет применять любые алгоритмы адаптации GMM для адаптации DNN-моделей и является универсальным способом переноса адаптационных техник из фреймворка GMMво фреймворк DNN-моделей. Основные результаты. Эффективность работы предлагаемого подхода проверена с использованием одного из наиболее распространенных алгоритмов адаптации GMM-моделей – MAP (MaximumAPosteriori) адаптации. Предложены и изучены разные способы интеграции предлагаемого подхода в современную архитектуру нейросетевых акустических моделей. Проведен анализ выбора типа GMM. Результаты экспериментов на корпусе TED-LIUM показали эффективность предложенного подхода: в режиме адаптации без учителя предложенный алгоритм адаптации и рассмотренные методы фьюжена позволяют достичь 11–18% относительного уменьшения пословной ошибки распознавания по сравнению с дикторо-независимой акустической моделью, построенной по традиционному рецепту на стандартных признаках, и на 3–6% – по сравнению с дикторо-адаптированной базовой моделью.

Ключевые слова:

Статьи в номере