ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ РАДОСТИ В РЕЧИ

ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ …

УДК 004.934.2
ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ РАДОСТИ В РЕЧИ
К.В. Сидоров, Н.Н. Филатова
Рассмотрена задача распознавания образцов речи, зарегистрированных в момент проявления испытуемыми эмоции радости, от образцов речи этих же дикторов в нейтральном состоянии. Для решения задачи использованы методы нелинейной динамики. Исследования проведены на записях, взятых из базы Emo-DB (Берлин), и фрагментах русскоязычной базы (Тверь). Сформирован модельный корпус эмоциональной речи, состоящий из базы данных двух уровней (фраз и фонем), послуживший основанием для оценки работоспособности разрабатываемых алгоритмов. Выделены устойчивые признаки нелинейной динамики – реконструкция аттрактора и рекуррентный график. Предложены новые количественные признаки для классификации образцов речи человека, испытывающего эмоцию радости, основанные на оценках максимальных векторов реконструкции аттрактора для четырех квадрантов. Ключевые слова: эмоция, эмоциональное состояние, речь, речевой сигнал, нелинейная динамика, реконструкция аттрактора, рекуррентный график.
Введение
На современном этапе развития информационных технологий разработка методов и систем распознавания эмоционального состояния человека по речевому сигналу с помощью аппаратно-программных средств является актуальной задачей, позволяющей решить ряд проблем в области биомедицинских технологий. В последние годы наблюдается явное усиление интереса к анализу речевого сигнала как объективного показателя эмоционального состояния человека [1, 2]. Различные исследования в области акустики, психолингвистики и психофизиологии позволили собрать сведения о множестве акустических, просодических и лингвистических характеристик речи, которые можно использовать в качестве информативных признаков при распознавании эмоционального состояния, проявляющихся на уровне сегментов, фонем (звуков), слогов, целых слов и фраз. Чаще всего используются следующие признаки речевого сигнала [3]: спектрально-временные, амплитудно-частотные, вейвлет, кепстральные и характеристики (инварианты) нелинейной динамики. Судя по полученным результатам, перечисленные признаки зарекомендовали себя с положительной стороны. Однако, несмотря на большое количество проведенных в данном направлении исследований, ряд проблем все еще остается нерешенным, и многие идеи требуют дальнейшего развития. В частности, отсутствует универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций, отражающая взаимосвязь вида эмоций и объективных характеристик речевого сигнала.
На текущий момент времени выделение новых информативных признаков, по возможности родственных человеческому восприятию, и поиск эффективных методик распознавания эмоций, являются важнейшей задачей. В работе рассматривается способ решения этой задачи методами нелинейной динамики, позволяющими получить количественную и качественную оценку признаков, проявляющихся в речевом сигнале человека, испытывающего эмоцию радости.
Модельный корпус эмоциональной речи
В настоящее время в Тверском государственном техническом университете активно ведутся разработки системы распознавания эмоционального состояния человека по образцам речевого сигнала. Для проведения исследований необходимо наличие модельного корпуса эмоциональной речи, т.е. базы дан-

110

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

К.В. Сидоров, Н.Н. Филатова

ных, в которой хранятся образцы речи испытуемых, находящихся в различных эмоциональных состояниях. В связи с этим был сформирован модельный корпус эмоциональной речи, состоящий из двух частей (русской и немецкой). При создании русскоязычной части в качестве дикторов (испытуемых) выступили 5 человек, каждый из которых, на основе одного нейтрального образца, создал несколько клонов с различным уровнем проявления положительной эмоции радости [4], выбор которой обусловлен интересами дальнейшего применения разрабатываемой технологии. При формировании немецкоязычной части использовались записи эмоции радости и нейтрального состояния, взятые из берлинской базы данных эмоциональной речи Emo-DB (Berlin Database of Emotional Speech) [5], состоящей из 535 фраз 10 дикторов, имитирующих набор эмоциональных состояний: гнев, скука, отвращение, беспокойство/страх, печаль, радость/счастье и нейтральное состояние. В целом, модельный корпус состоит из двух уровней, связанных иерархически. Уровень 1 включает образцы фраз от разных дикторов. Используя алгоритм автоматической генерации речевых объектов [6] для каждой записи уровня 1, получены объекты уровня 2 – фонемы. Всего для проведения исследований сформированы 4 обучающие выборки (ОВ):
1. ОВ 1.1 – 18 русских записей контрольной фразы «А голос мой звучит примерно так»; 2. ОВ 1.2 – 180 гласных фонем, полученных из ОВ 1.1; 3. ОВ 2.1 – 120 немецких фраз; 4. ОВ 2.2 – 300 гласных фонем, сформированных из ОВ 2.1.

Реконструкция аттрактора

Для конструктивного решения задачи распознавания эмоций по речи необходимо количественно

охарактеризовать речевой сигнал и выделить существенные параметры, отвечающие за эмоциональное

состояние человека, т.е. необходимо подобрать соответствующий математический аппарат. Перспектив-

ным, по мнению авторов, в этом плане является аппарат нелинейной динамики, позволяющий реконст-

руировать фазовый портрет аттрактора по временнóму ряду или по одной его координате. Для реконст-

рукции аттрактора исследуемый временной ряд xn ,..., xn1 подвергается задержке координат [7]:

yt  (xt , xt ,..., xt(m1) ), t  0,..., s 1, s  N  (m 1) ,

(1)

где N – общее число элементов (точек) временного ряда;  – задержка по времени между элементами

временного ряда (временной лаг); m – размерность вложения (размерность лагового пространства).

При выборе значения временной задержки  используется идея о том, что если точки, образую-

щие временной ряд, независимы друг от друга, то реконструированные вектора (1) несут в себе наи-

большее количество информации об исследуемом ряде. По этой причине необходимо выбирать  таким

образом, чтобы корреляция между элементами временного ряда xt и xt была по возможности минимальной. Такой выбор осуществляется при вычислении автокорреляционной функции

B()  1 k

k k

1 0

(

xn



x )  (x



x ),

k  N   , где x

– математическое ожидание. Временная задержка 

выбирается равной времени первого пересечения нуля автокорреляционной функцией [8] (рис. 1, а), зна-

чение задержки составляет 13 (   13 ). Величина размерности вложения m определяется с точки зрения

достаточности (насыщения) посредством вычисления корреляционного интеграла C() и корреляцион-

ной размерности D2 реконструкции аттрактора [8]. Корреляционный интеграл C() , показывающий относительное число пар точек аттрактора xi , xj , находящихся на расстоянии не больше  , определяется как

C()  lim 1 M (M 1)  M 

M i, j

1

θ(



r

(

xi

,

x

j

)),

i, j  1,..., M ,

(2)

D2



lim log C()
0

log 

,

(3)

где M – число рассматриваемых состояний xi (количество точек xi на аттракторе); r – расстояние ме-

жду точками аттрактора; () – ступенчатая функция Хевисайда. После нахождения C() (2) и D2 (3),

строится зависимость корреляционной размерности D2 от размерности вложения m (1), определяется

точка, при которой кривая наклонов насыщается (рис. 1, б), корреляционная размерность аттрактора со-

ставляет 3,6 ( D2  3, 6 ), она достигается при размерности вложения, равной 5 ( m  5 ).

Проведен нелинейный анализ фраз (ОВ 1.1, ОВ 2.1) и фонем (ОВ 1.2, ОВ 2.2) (рис. 2) на основе

реконструкции аттрактора (1). Выявлено, что в большинстве случаев наблюдается взаимосвязь геомет-

рии аттрактора с состоянием эмоционального возбуждения (объектам нейтрального состояния присуще

более правильная форма, стремящаяся к эллипсообразной). Установлено, что эмоция радости по сравне-

нию с нейтральным состоянием имеет меньшую траекторию разброса реконструкции, как для фраз, так и

для фонем.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

111

ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ …

аб
Рис. 1. Выбор оптимальных значений реконструкции: автокорреляционная функция объекта ОВ 1.1 (а);
зависимость значений D2 от m (б)

аб Рис. 2. Аттракторы фонемы «и» ОВ 1.2: радость (а); нейтральное состояние (б)

Предложен новый признак, определяемый по результатам реконструкции, который существенно снижает размерность описаний речевых образцов и позволяет осуществлять количественно сравнение аттракторов – усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам

R all max

.

Вначале

находится

первый

вектор

реконструкции

в

первом

квадранте

R11



xi2  xi2 , где xi – зна-

чение временного ряда в i -й момент времени,  – временная задержка. Далее вычисляются оставшиеся

n векторов в первом квадранте, в результате получается множество значений векторов реконструкции

R1  {R11, R21 ,..., Rn1} . Из множества

R1

выбирается максимальный вектор

R1 max

.

Аналогично

находятся

максимальные вектора реконструкции аттрактора в других квадрантах

R2 max

,

R3 max

и

R4 max

.

Далее

рассчи-

тывается усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам

R all max

,

который является новым количественным признаком для распознавания i -го речевого образца:

Rall max

(i)



0,

25

4 j

1

Rj max

(i),

i  1,..., M ,

(4)

где j – номер квадранта, i – номер речевого образца (предложение или фонема); M  18 для ОВ 1.1;

M  180 для ОВ 1.2; M  120 для ОВ 2.1; M  300 для ОВ 2.2.
Количественная оценка реконструкций аттракторов на выборках речевых образцов разной длительности (таблица) выполнена с использованием следующих характеристик:

 Rall max

 M 1 

M i 1

R all max

(i),

Rj max



M 1 

M i 1

Rj max

(i),

j  1,..., 4 .

(5)

Установлено, что как на уровне фраз (ОВ 1.1, ОВ 2.1), так и на уровне фонем (ОВ 1.2, ОВ 2.2)

эмоция радости по сравнению с нейтральным состоянием характеризуется меньшим значением

R all max

(4),

112

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

К.В. Сидоров, Н.Н. Филатова

(5). Следует отметить тот факт, что образцы русскоязычной части корпуса с эмоцией радости (на всех

уровнях) имеют приблизительно в два раза меньшее значение признака

R all max

.

Объекты
Фразы (предложения)
Фонемы (звуки)

Эмоциональное возбуждение
Радость
Нейтральное состояние
Радость
Нейтральное состояние

Выборка
ОВ 1.1 ОВ 2.1 ОВ 1.1 ОВ 2.1 ОВ 1.2 ОВ 2.2 ОВ 1.2 ОВ 2.2

R1 max
19596 28257 37536 31671 13067 11098 28387 15590

Признаки, отсчеты

R2 max

R3 max

R4 max

18786 16229 18561

34587 29716 39138

35547 31384 38358

33045 34846 40882

7969

9456

5361

10208 11800 11762

13795 18267 9194

11801 18777 14434

R all max
18293 32925 35706 35111 8963 11217 17411 15151

Таблица. Усредненный максимальный вектор реконструкций аттракторов

R all max

Рекуррентный график

В 1987 г. Экман и соавторы [9] разработали так называемые рекуррентные графики (диаграммы), позволяющие исследовать m -размерную траекторию лагового пространства (1) посредством двухмерно-
го представления ее рекуррентности (повторяемости траекторий по происшествии некоторого времени в пространстве реконструкции аттрактора). Рекуррентный график представляется в виде двумерной или
треугольной (так как обе стороны от главной диагонали под углом  / 4 являются симметричными) мат-
рицы размером N  N , по обеим осям которой откладывается время. Матрица заполнена черными и бе-
лыми точками (единицами и нулями), где черные точки обозначают наличие рекуррентности, а белые – отсутствие [10]:

Rij  (i  xi  x j ), i, j  1,..., N ,

(6)

где N – число рассматриваемых состояний xi ; i – радиус выбранной окрестности (расстояние от цен-
тра окрестности xi до ее границы); ||  || – норма.
Если точка траектории реконструкции аттрактора в момент времени xj попадает в выбранную ок-
рестность другой точки в момент xi , то такие точки считаются рекуррентными, вследствие чего на рекуррентном графике появляется точка черного цвета с координатами xij , соответствующая единице, и
наоборот [7]. Радиус выбранной окрестности i (6) выбирается не более 10% от максимального значения диаметра восстановленной реконструкции аттрактора [8]. На рис. 3 приведены примеры рекуррентных графиков объектов ОВ 1.1.

аб
Рис. 3. Рекуррентные графики фраз: радость (а); нейтральное состояние (б)
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

113

ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ …

Визуально установлено, что для объектов, выражающих эмоцию радости (рис. 3, а), характерна более контрастная топология по сравнению с нейтральным состоянием (рис. 3, б). Эмоция радости характеризуется более резкими изменениями динамики временного ряда и нестационарностью, вследствие чего в структуре рекуррентного графика появляются характерно выраженные белые зоны, указывающие на нерегулярность процесса. Текстура эмоции радости характеризуется более выраженными скоплениями горизонтальных и вертикальных линий, повторяющихся с некоторой периодичностью.

Заключение

В среде MATLAB в виде m -файлов реализован программный модуль распознавания эмоции радо-

сти человека по речевому сигналу, основанный на использовании двух качественных ( yt , Rij ) и пяти

количественных

(

R1 max

–

R4 max

;

R all max

)

признаков нелинейной динамики.

При тестировании программного

модуля на модельном корпусе эмоциональной речи точность распознавания, т.е. отнесения к одному из

двух возможных классов (радость или нейтральное состояние), составила 93% для немецкоязычной и

95% для русскоязычной частей корпуса. Для сравнения отметим, что при распознавании образцов «ней-

тральной» и «агрессивной» речи из базы Emo-DB точность распознавания 96% получена при использо-

вании 4 признаков, а 98% – при использовании 384 признаков [1]. В работе [2] классификатор, построен-

ный для этой же базы Emo-DB, решал задачу разделения двух классов образцов речи (нормальное со-

стояние и отклонение от него, возникающее у человека, испытывающего различные эмоции). Точность

классификации составила 97 % при использовании 211 признаков и 87 % – при 15 признаках. Предлагае-

мый набор параметров аппарата нелинейной динамики после соответствующей адаптации будет исполь-

зоваться для формирования динамической модели, отображающей взаимосвязь эмоционального состоя-

ния человека с характеристиками речевого сигнала.

Литература

1. Давыдов А.Г., Киселев В.В., Кочетков Д.С. Классификация эмоционального состояния диктора по голосу: проблемы и решения // Труды международной конференции «Диалог 2011». – М.: РГТУ, 2011. – С. 178–185.
2. Лукьяница А.А., Шишкин А.Г. Автоматическое определение изменений эмоционального состояния по речевому сигналу // Речевые технологии. – М.: Народное образование, 2009. – № 3. – С. 60–76.
3. Сидоров К.В., Филатова Н.Н. Анализ признаков эмоционально окрашенной речи // Вестник Тверского государственного технического университета. – Тверь: ТвГТУ, 2012. – Вып. 20. – С. 26–31.
4. Сидоров К.В., Филатова Н.Н., Калюжный М.В. Модельный русскоязычный корпус эмоциональной речи // Приоритетные направления развития науки и технологий: доклады XI всероссийской научн.техн. конф. – Тула: Инновационные технологии, 2012. – С. 115–117.
5. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. A Database of German Emotional Speech // Proc. Intern. Conf. Interspeech. – Lissabon, 2005 [Электронный ресурс]. – Режим доступа: http://pascal.kgw.tu-berlin.de/emodb/index-1280.html, свободный. Яз. англ. (дата обращения 10.07.2012).
6. Сидоров К.В., Филатова Н.Н. Алгоритм автоматической генерации речевых объектов // Сборник материалов I Международной научн.-практ. конф. «Технические науки – основа современной инновационной системы». – Ч. 1. – Йошкар-Ола, 2012. – С. 118–120.
7. Сидоров К.В. Диагностика эмоционального состояния диктора на основе рекуррентного анализа речевого сигнала // Междисциплинарные исследования в науке и образовании. – 2012. – № 1 Sp. – [Электронный ресурс]. – Режим доступа: http://www.es.rae.ru/mino/157-702, свободный. Яз. рус. (дата обращения 10.07.2012).
8. Горшков В.А., Касаткин С.А. Идентификация временных рядов авиационных событий методами и алгоритмами нелинейной динамики. – М.: Бланк Дизайн, 2008. – 208 с.
9. Eckmann J.P., Kamphorst S.O., Ruelle D. Recurrence Plots of Dynamical Systems // Europhys. Lett. 5. – 1987. – P. 973–977.
10. Киселев В.Б. Рекуррентный анализ – теория и практика // Научно-технический вестник СПбГУ ИТМО. – 2006. – № 29. – С. 118–127.

Сидоров Константин Владимирович Филатова Наталья Николаевна

– Тверской государственный технический университет, аспирант, bmisidorov@rambler.ru, bmisidorov@mail.ru
– Тверской государственный технический университет, доктор технических наук, профессор, nfilatova99@mail.ru

114

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)