ViSL model: модель автоматической генерации предложений вьетнамского языка жестов
Аннотация:
Введение. Основной проблемой при построении интеллектуальных систем является недостаточность данных для машинного обучения, что особенно актуально для распознавания языка жестов для глухих и слабослышащих людей. Одним из способов увеличения объема данных для обучения интеллектуальных систем является их синтез. В отличие от синтеза речи, создавать последовательность жестов на вьетнамском и некоторых других языках, в точности повторяющих текст, невозможно. Это связано с существенной ограниченностью словаря жестов и отличающимся порядком слов в предложениях. Целью работы является обогащение обучающего набора видеоданных для создания систем распознавания вьетнамского языка жестов (Vietnamese Sign Language, ViSL). Метод. Поскольку транслировать слова исходного текста в жесты невозможно, возникает задача перевода с обычного языка на жестовый. Для решения поставленной задачи в работе использован двухфазный процесс. На первой фазе выполняется предварительная обработка текста со стандартизацией текстового формата, сегментацией слов и предложений, а затем кодирование слов с помощью словаря языка жестов. На данном этапе не требуется удалять знаки препинания и стоп-слова, поскольку они связаны с точностью N-граммовой модели. На второй фазе вместо использования синтаксического анализа применяется статистический метод формирования последовательности жестов. При этом за основу берется марковская модель на графе переходов между словами, в которой вероятность следующего слова зависит только от двух предыдущих слов. Вероятности переходов вычисляются на существующем размеченном наборе ViSL. Метод графового поиска в ширину используется для составления списка всех предложений, сгенерированных на основе заданного грамматического правила и матрицы семантического взаимодействия между словами. Обратное значение логарифма произведения вероятности совместного появления последовательных словосочетаний из трех слов в предложении используется для оценки частоты встречаемости этого предложения в заданном наборе данных. Основные результаты. Основываясь на данных ViSL, состоящих из 3234 слов, рассчитаны матрицы вероятности, представляющие отношения между словами, на основе данных ViSL с 50 млн предложений, собранных из вьетнамских газет и журналов. Для различных грамматических правил выполнено сравнение количества сгенерированных предложений и оценка точности 50 наиболее часто встречающихся предложений. Средняя точность составила 88 %. Точность сгенерированных предложений оценена статистическими методами. Показано, что число сгенерированных предложений зависит от количества частей слова, которые помечены в соответствии с правилами грамматики. Семантическая точность сгенерированных предложений высока, если поисковые слова помечены правильными частями речи. Обсуждение. По сравнению с методами машинного обучения, предлагаемая модель дает хорошие результаты для языков без словоизменений и порядка слов, следующих определенным правилам, таких как вьетнамский язык, и не требует больших вычислительных ресурсов. Недостатком модели является зависимость точности от типа слова, предложения и сегментации слов. Взаимосвязь слов зависит от наблюдаемого набора данных. Будущее направление исследований — создание абзацев на языке жестов. Полученные данные могут быть использованы в моделях машинного обучения для задач обработки языка жестов.
Ключевые слова:
Постоянный URL
Статьи в номере
- Автоматический сурдоперевод: обзор нейросетевых методов распознавания и синтеза звучащей и жестовой речи
- Обзор алгоритмов маршрутизации для сетей на кристалле
- Исследование усилительных свойств активных областей на основе In0,60Ga0,40As/In0,53Al0,20Ga0,27As сверхрешеток, используемых для вертикально-излучающих лазеров
- Изменение оптических свойств поверхности серебра за счет лазерного структурирования
- Алгоритм ориентирования на местности беспилотных летательных аппаратов с использованием машинного зрения
- Разработка волоконно-оптической системы для мониторинга геотехнических сооружений
- Исследование характеристик полупроводникового лазерного диода с распределенной обратной связью в режиме источника и приемника оптического излучения для регистрации отклика волоконных решеток Брэгга
- Управление нелинейными объектами с гарантией нахождения регулируемой переменной в заданном множестве при возмущениях и помехах в измерениях
- Влияние качества растворителя на трибологические свойства полимерных щеток
- Совместное распознавание акустических сцен и аудиособытий с помощью многозадачного обучения компактных моделей
- Метод оптимизации нейронных сетей на основе структурной дистилляции с применением генетического алгоритма
- Расширенное обнаружение аномалий в сетевой безопасности: комплексный ансамблевый подход
- Усовершенствование контроля доступа на основе атрибутов с помощью технологий Ethereum и ZK-SNARK
- Сравнительный анализ нейросетевых моделей для картографирования лесных рубок по летним космическим снимкам
- Гарантированные оценки гамма-процентного остаточного ресурса оборудования систем хранения данных
- Классификация поражений рассеянным склерозом посредством анализа изображений магнитно-резонансной томографии методом глубокого обучения
- Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей
- Трехмерная реконструкция отдельных изображений с помощью бинарного классификатора
- Обнаружение скрытого вредоносного программного обеспечения с использованием глубокой нейронной сети с выбором признаков ANOVA на наборе данных CIC‑MalMem-2022
- Карта намагничивания вентильно-индукторного электродвигателя: экспериментальный подход
- Спектральная зависимость квантовой эффективности фотоэлектрохимического разложения воды нанопористыми слоями серебра