Например, Бобцов

ПОВЫШЕНИЕ ТОЧНОСТИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ВИЗУАЛЬНОЙ РУССКОЙ РЕЧИ: ОПТИМИЗАЦИЯ ВИЗЕМНЫХ КЛАССОВ

Аннотация:

В задаче автоматического чтения речи по губам диктора ведутся поиски оптимального набора классов визем, необходимого для максимально эффективного распознавания визуальной речи. Предложен подход для выделения классов визем, позволяющий создавать набор карт соответствия фонема–визема, где каждый класс имеет различное количество визем, от 2 до 48, при неизменном количестве фонем. Виземные классы основаны на их отображении из классов фонем, которые преобразуются в виземные группы в процессе распознавания звучащей речи. Используя полученные карты соответствия, на основе базы данных аудиовизуальной русской речи HAVRUSв работе продемонстрирована зависимость точности распознавания визуальной речи от количества используемых виземных классов. Использование высокоскоростных видеоданных позволило расширить оптимальный набор виземных классов до 20, что привело к улучшению точности распознавания по сравнению с набором из 14 классов.

Ключевые слова:

Статьи в номере