ViSL One-shot: генерация набора данных вьетнамского языка жестов
Аннотация:
Введение. Разработка методов автоматического распознавания объектов в видеопотоке, в частности распознавания жестового языка, требует больших объемов видеоданных для обучения. Устоявшимся методом обогащения данных для машинного обучения является искажение и зашумление. Отличие языковых жестов от других жестов состоит в том, что небольшие изменения позы могут радикально менять смысл жеста. Это накладывает специфические требования к вариативности данных. Метод. Новизна метода состоит в том, что вместо искажений кадров с помощью афинных преобразований изображений используется векторизация позы сурдодиктора с последующим зашумлением в виде случайных отклонений элементов скелета. Для реализации управляемой вариативности жестов с помощью библиотеки MediaPipe жест преобразуется в векторный формат, где каждый вектор соответствует элементу скелета. Далее выполняется восстановление изображения фигуры из векторного формата. Достоинством предложенного метода является возможность управляемого искажения жестов, соответствующего реальным отклонениям поз сурдодиктора. Основные результаты. Разработанный метод обогащения видеоданных протестирован на наборе из 60 слов индийского языка жестов (общего для всех языков и диалектов, распространенных на территории Индии), представленных 782 видеофрагментами. Для каждого слова выбран наиболее репрезентативный жест и сгенерировано 100 вариаций. Остальные, менее репрезентативные жесты, использованы в качестве тестовых данных. В результате получена модель классификации и распознавания на уровне слов с использованием нейронной сети GRU-LSTM с точностью выше 95 %. Метод апробирован на наборе данных из 4364 видео на вьетнамском языке жестов для трех регионов Северного, Центрального и Южного Вьетнама. Сгенерировано 436 400 образцов данных, из которых 100 образцов представляют значения слов, которые могут использоваться для разработки и совершенствования методов распознавания языка жестов на вьетнамском языке за счет генерации множества вариаций жестов с разной степенью отклонения от эталонов. Обсуждение. Недостатком предложенного метода является зависимость точности от ошибки библиотеки MediaPipe. Создаваемый набор видеоданных может также использоваться для автоматического сурдоперевода.
Ключевые слова:
Постоянный URL
Статьи в номере
- Методика выбора параметров оптико-электронных систем контроля износа рабочих лопаток паровых турбин по заданной величине суммарной погрешности
- Моделирование и анализ фрактального преобразования искаженных снимков земной поверхности, получаемых оптико-электронными системами наблюдения
- Способ быстрой разметки сверхбольших данных аэросъемки
- Задача адаптивного субоптимального управления и ее вариационное решение
- Управление по выходу для класса нелинейных систем на основе динамической линеаризации
- RuPersonaChat: корпус диалогов для персонификации разговорных агентов
- Оптимизированный метод глубокого обучения для прогнозирования дефектов программного обеспечения с использованием алгоритма оптимизации кита
- Гарантированное обнаружение структурных аномалий в потоковых данных с использованием модели RRCF: выбор параметров обнаружителя и его стабилизация в условиях аддитивных шумов
- Оценка вероятностно-временных характеристик компьютерной системы с контейнерной виртуализацией
- Новый метод противодействия состязательным атакам уклонения на информационные системы, основанные на искусственном интеллекте
- О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния
- Устойчивость высокоупругой прямоугольной пластинки с защемленно-свободными краями при одноосном сжатии
- Модели и методика моделирования деформаций в САПР ANSYS для систем железнодорожных вагонных весов
- Применение метода решеточных уравнений Больцмана для решения задач динамики вязкой несжимаемой жидкости
- От конструирования вейвлетов на основе производных функции Гаусса к синтезу фильтров с конечной импульсной характеристикой
- Метод разбиения единицы и гладкая аппроксимация
- Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов
- Подход к разработке программных продуктов в стартапе
- Моделирование восприятия рекомендаций системы поддержки принятия врачебных решений на основе предсказательного моделирования при проведении профилактических осмотров врачами-стоматологами