Например, Бобцов

АНАЛИЗ МЕТОДОВ МНОГОМОДАЛЬНОГО ОБЪЕДИНЕНИЯ ИНФОРМАЦИИ ДЛЯ АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ РЕЧИ

Аннотация:

В статье представлен аналитической обзор, охватывающий последние результаты, достигнутые в области аудиовизуального объединения (интеграции) многомодальной информации. Рассматриваются основные проблемы и обсуждаются методы их решения. Одной из важнейших задач аудиовизуальной интеграции является понимание того, как именно модальности взаимодействуют и влияют друг на друга. В данной работе этот вопрос рассматривается в контексте аудиовизуальной обработки речи, в особенности распознавания речи. В первой части обзора изложены базовые принципы аудиовизуального распознавания речи, приводится классификация типов аудио- и визуальных признаков речи. Отдельное внимание уделяется систематизации существующих способов и методов объединения аудиовизуальной информации. Во второй части, на основе проведенного анализа области исследований, приводится сводный список задач и приложений, использующих аудиовизуальное объединение с указанием методов, способов объединения информации и используемых аудио- и видеопризнаков. Предлагается структуризация методов аудиовизуальной интеграции по типам решаемых задач, а также обсуждаются преимущества и недостатки различных подходов. Приведены выводы, предложена оценка будущего развития области. В ходе дальнейших исследований планируется реализация системы аудиовизуального распознавания слитной русской речи с применением современных методов объединения многомодальной информации.

Ключевые слова:

Статьи в номере