Например, Бобцов

Сегментация жестов слов на видео жестового языка

Аннотация:

Введение. Несмотря на широкое распространение средств автоматического распознавания речи и сопровождения видео субтитрами, язык жестов по-прежнему является ключевым средством коммуникации для людей с нарушениями слуха. Важной задачей в процессе автоматического распознавания жестового языка является сегментация видео на фрагменты, соответствующие отдельным словам. В отличие от известных методов сегментации слов жестового языка, предложен подход, не требующий использования сенсоров (акселерометров). Метод. Для сегментации видео на слова использована оценка динамики изображения, а граница между словами определена с помощью порогового значения. На практике в кадре, кроме диктора, могут присутствовать сторонние движущиеся объекты, которые создают шум. В связи с этим предложено оценить динамику по среднему изменению от кадра к кадру евклидова расстояния между координатными характеристиками кисти, предплечья, глаз и рта. Вычисление координатных характеристик рук и головы осуществлено с помощью библиотеки MediaPipe. Основные результаты. Разработанный алгоритм апробирован для жестового вьетнамского языка на открытом наборе из 4364 видео, собранном во Вьетнамском центре обучения языку жестов. Алгоритм продемонстрировал высокую точность, сопоставимую с ручной сегментацией видео оператором, и низкую ресурсоемкость, что позволяет его использовать при автоматическом распознавании жестов в реальном времени. Обсуждение. Выполненные эксперименты показали, что задача сегментации языка жестов в отличие от известных методов может быть эффективно решена без использования сенсоров. Как и другие методы сегментации жестов, предложенный алгоритм неудовлетворительно работает при высокой скорости жестового языка, когда имеет место наложение слов друг на друга. Данная проблема является предметом дальнейших исследований.

Ключевые слова:

Статьи в номере