ОБРАБОТКА И АНАЛИЗ ЗВУКОВОЙ И ВИЗУАЛЬНОЙ СОСТАВЛЯЮЩИХ РЕЧИ НА ОСНОВЕ ПРОЕКЦИОННЫХ МЕТОДОВ
Аннотация:
Предмет исследования. Рассмотрена задача взаимной реконструкции (преобразования) звуковой и визуальной составляющих (модальностей) речевого сигнала. Аудиозапись голоса представляет звуковую составляющую, а снятая параллельно с ней видеозапись лица человека образует визуальную составляющую. Так как эти модальности обладают различной физической природой, их совместный анализ и обработка сопровождаются рядом трудностей и проблем. Многие из них можно преодолеть с помощью методов взаимной реконструкции. Метод. Предложенный подход основан на анализе главных компонент (PrincipalComponentAnalysis, PCA), множественной линейной регрессии, регрессии частичных наименьших квадратов (PartialLeastSquares, PLS), а также на алгоритме кластеризации K-средних. Также подробно рассмотрены вопросы предобработки исходных данных. В качестве звуковых признаков использованы мел-частотные кепстральные коэффициенты (Mel-FrequencyCepstralCoefficients, MFCC), а в качестве визуальных – набор из 20 опорных точек, представляющих контур рта. Основные результаты. В рамках экспериментальных исследований выполнена реконструкция опорных точек контура рта из MFCC. Эксперименты проведены на аудиовизуальной англоязычной базе VidTIMIT. Представлены варианты реализации предложенного подхода на основе PCAи регрессии PLSс кластеризацией и без нее (четыре варианта). Количественная (объективная) и качественная (субъективная) оценки подтвердили работоспособность предложенного подхода; наилучшие результаты показала реализация на основе регрессии PLSс предварительной кластеризацией. Практическая значимость. На основе предложенного подхода могут быть разработаны бимодальные биометрические системы, управляемые голосом виртуальные двойники («аватары»), системы контроля доступа к мобильным устройствам и другие решения в области аудиовизуальных человеко-машинных интерфейсов. Показано, что при правильной организации вычислений использование методов PCAи PLSпозволяет значительно сократить вычислительные затраты. Отказ от кластеризации также позволяет повысить быстродействие за счет некоторого снижения качества реконструкции.
Ключевые слова:
Постоянный URL
Статьи в номере
- О СОВРЕМЕННОМ ПОДХОДЕ К ПРОЕКТИРОВАНИЮ БЕСПИЛОТНЫХ ЛЕТАТЕЛЬНЫХ АППАРАТОВ САМОЛЕТНОГО ТИПА С КОРОТКИМ ВЗЛЕТОМ И ПОСАДКОЙ. ЧАСТЬ III. ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ВИХРЕВОЙ АЭРОДИНАМИКИ ЛЕТАТЕЛЬНОГО АППАРАТА МЕТОДОМ ДИСКРЕТНЫХ ВИХРЕЙ
- ЛОКАЛЬНОЕ ЛАЗЕРНОЕ ИСПАРЕНИЕ ПЛЕНОК СЛОЖНЫХ ТОПОЛОГИЙ ЧУВСТВИТЕЛЬНОГО ЭЛЕМЕНТА МИКРОГИРОСКОПА НА ПОВЕРХНОСТНЫХ АКУСТИЧЕСКИХ ВОЛНАХ
- РАСПРЕДЕЛЕНИЕ АМПЛИТУДЫ ОПТИЧЕСКОГО ПОЛЯ НА ТРАНСПАРАНТЕ ОПТИКО-ЭЛЕКТРОННОЙ СИСТЕМЫ ДЛЯ ИЗМЕРЕНИЯ ПАРАМЕТРОВ ВИБРОПОДСТАВКИ В ЛАЗЕРНОМ ГИРОСКОПЕ
- ВЫБОР ПАРАМЕТРОВ ОПТИКО-ЭЛЕКТРОННЫХ СИСТЕМ КОНТРОЛЯ СМЕЩЕНИЙ С АКТИВНЫМИ РЕПЕРНЫМИ МАРКАМИ
- МЕТОД КОНТРОЛЯ ДЕФОРМАЦИЙ КОМПОЗИТНЫХ КОНСТРУКЦИОННЫХ ЭЛЕМЕНТОВ С ПОМОЩЬЮ ВОЛОКОННО-ОПТИЧЕСКОГО ДАТЧИКА АКУСТИЧЕСКОЙ ЭМИССИИ
- ПОЛУПРОВОДНИКОВЫЙ СТАНДАРТ ЧАСТОТЫ НА ЛИНИИ P(16) ИЗОТОПА АЦЕТИЛЕНА СО СТАБИЛИЗАЦИЕЙ ПО ТЕМПЕРАТУРЕ ФАЗОМОДУЛЯЦИОННЫМ МЕТОДОМ
- УПРАВЛЕНИЕ ЭЛЕКТРИЧЕСКИМ ГЕНЕРАТОРОМ В УСЛОВИЯХ ВЫСОКОЧАСТОТНЫХ ПОМЕХ ИЗМЕРЕНИЯ
- ПЕРЕНОС ЗНАНИЙ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ В ТЕЛЕФОННЫХ ПЕРЕГОВОРАХ
- ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ МЕТОДА КОДИРОВАНИЯ ВНУТРИКАДРОВЫМ ПРЕДСКАЗАНИЕМ В СТАНДАРТЕ H.265/HEVC
- ПРИМЕНЕНИЕ СЕМАНТИЧЕСКОЙ МОДЕЛИ БАЗЫ ДАННЫХ ПРИ РЕАЛИЗАЦИИ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА
- ОРГАНИЗАЦИЯ ЦИФРОВЫХ ПРОИЗВОДСТВ ИНДУСТРИИ 4.0 НА ОСНОВЕ КИБЕРФИЗИЧЕСКИХ СИСТЕМ И ОНТОЛОГИЙ
- ПОДХОД К ВЫБОРУ ИНФОРМАТИВНОГО ПРИЗНАКА В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
- МЕТОДОЛОГИЯ ПРОЕКТИРОВАНИЯ, РАЗРАБОТКИ И СОПРОВОЖДЕНИЯ ДОМЕННЫХ СЕМАНТИЧЕСКИХ ПОРТАЛОВ НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ
- ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОПРЕДЕЛЕНИЯ НАРУШЕНИЙ ЦЕЛОСТНОСТИ JPEG-ИЗОБРАЖЕНИЙ
- ОБЪЕКТНО-ПРОЦЕССНАЯ МОДЕЛЬ ДАННЫХ ДЛЯ СЕРВИС-ОРИЕНТИРОВАННОЙ АРХИТЕКТУРЫ ИНТЕГРИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
- ЗАДАЧИ АНАЛИЗА ЗАЩИЩЕННОСТИ ПОЛЬЗОВАТЕЛЕЙ ОТ СОЦИОИНЖЕНЕРНЫХ АТАК: ПОСТРОЕНИЕ СОЦИАЛЬНОГО ГРАФА ПО СВЕДЕНИЯМ ИЗ СОЦИАЛЬНЫХ СЕТЕЙ
- ОПТИМАЛЬНАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДЛЯ ОПИСАНИЯ ФИЗИЧЕСКИХ ЯВЛЕНИЙ И ПРОЦЕССОВ
- МЕТОД СИНТЕЗА СХЕМОТЕХНИЧЕСКИХ МОДЕЛЕЙ ЦИФРО-АНАЛОГОВЫХ ПРЕОБРАЗОВАТЕЛЕЙ ДЛЯ ИНТЕГРАЛЬНЫХ СХЕМ
- ВРЕМЕННОЙ АНАЛИЗ ИНТЕГРАЛЬНЫХ СХЕМ С УЧЕТОМ МОДЕЛЕЙ КОНТАКТНЫХ ПЛОЩАДОК И ПРОВОДНИКОВ РАЗВАРКИ
- ПОВЫШЕНИЕ ТОЧНОСТИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ВИЗУАЛЬНОЙ РУССКОЙ РЕЧИ: ОПТИМИЗАЦИЯ ВИЗЕМНЫХ КЛАССОВ
- ОБЪЕДИНЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ ОБУЧЕНИЯ НЕЙРОСЕТЕВЫХ АКУСТИЧЕСКИХ МОДЕЛЕЙ