For example,Бобцов

AGGLOMERATIVE CLUSTERING OF SOUND RECORD SPEECH SEGMENTS BASED ON BAYESIAN INFORMATION CRITERION

АГЛОМЕРАТИВНАЯ КЛАСТЕРИЗАЦИЯ РЕЧЕВЫХ СЕГМЕНТОВ ФОНОГРАММЫ...
УДК 004.93+57.087.1
АГЛОМЕРАТИВНАЯ КЛАСТЕРИЗАЦИЯ РЕЧЕВЫХ СЕГМЕНТОВ ФОНОГРАММЫ НА ОСНОВЕ БАЙЕСОВСКОГО ИНФОРМАЦИОННОГО КРИТЕРИЯ
О.Ю. Кудашев
Дано описание реализации системы агломеративной кластеризации речевых сегментов фонограммы на основе байесовского информационного критерия. Приведены результаты численных экспериментов с применением различных акустических признаков, а также с использованием полной и диагональной матриц ковариации. Для аудиозаписей радио «Свобода» на разработанной системе был достигнут уровень ошибки DER 6,4%. Ключевые слова: кластеризация речевых сегментов, вариационный байесовский анализ, речевые технологии.
Введение В последнее время наблюдается значительный рост интереса к системам автоматической сегментации фонограмм. Подобный рост вызван, в первую очередь, значительным увеличением объема звуковых данных, а также быстрым развитием технологий обработки речи. В значительной степени интерес научного сообщества в этой области поддерживается Национальным институтом стандартов и технологий (National Institute of Standards and Technology, NIST), разработавшим методику оценки качества систем автоматической обработки речи (Rich Transcription Evaluation Project, RTE) [1]. Одной из подзадач RTE является задача разделения дикторов (MDE (Metadata Extraction) Speaker Diarization), в рамках которой необходимо произвести кластеризацию (объединение) речевых сегментов фонограммы, принадлежащих одному диктору. Задачи разделения дикторов и методы их решения можно классифицировать в соответствии с областью их применения. Так, для кластеризации речевых сегментов аудиозаписей диалогов наиболее эффективным методом является вариационный байесовский анализ в пространстве собственных голосов [2, 3]. Интересом данной работы являются аудиозаписи радиовещаний. Особенностью таких аудиозаписей является относительно редкая смена дикторов, а также отсутствие ограничения на их количество. Общепризнанным решением в этом случае является метод агломеративной кластеризации речевых сегментов на основе байесовского информационного критерия (Bayesian Information Criterion, BIC). Системы разделения дикторов, основанные на этом методе, зарекомендовали себя с точки зрения оптимального соотношения эффективности и производительности [4, 5].
90 Научно-технический вестник информационных технологий, механики и оптики,
2013, № 1 (83)

О.Ю. Кудашев

Целью настоящей работы является реализация системы агломеративной кластеризации речевых сегментов на основе BIC. Кроме того, в данной работе будут представлены результаты применения разработанной системы к русскоязычному корпусу, в частности, к аудиозаписям радио «Свобода».

Применение BIC для кластеризации речевых сегментов

BIC является широко распространенным статистическим критерием, на основе которого произво-

дится выбор модели. В соответствии с этим критерием качество модели M, описывающей распределение данных X={x1, …, xN}, xi  Rd, оценивается по формуле

BIC(M )



log

L(x1,..., xN

|

M)

 2

(M ) log

N

,

(1)

где L(x1,..., xN | M ) – функция правдоподобия; (M ) – число степеней свободы модели M (число свободных параметров);  – настраиваемое пороговое значение, теоретически равное 1.

Пусть даны два независимых набора данных X1, X2. Задача кластеризации наборов данных X1, X2 может быть сведена к задаче выбора модели. Рассмотрим две альтернативные модели:

1. модель M1 – данные X1 и X2 подчиняются одному гауссову распределению, X1, X 2 ~ N (, ) .

2. модель M2 – данные X1 и X2 подчиняются двум различным гауссовым распределениям,
X1 ~ N (1, 1) , X 2 ~ N (2 , 2 ) .

Тогда, в соответствии с формулой (1),

BIC (M 1 )



log

L( X1 ,

X2

|

, )



 2

(M1) log(N1



N2

)

,

BIC(M 2

)



log

L( X1

|

1, 1)



log

L(X 2

|

2,2 )



 2

(M2 )

log( N1



N2 )

,

где N1, N2 – количество данных в наборах X1 и X2 соответственно. Разницу между этими двумя значениями обозначим BIC :

BIC



BIC (M1 )



BIC (M 2

)



log

L(

X1

L( X1, X 2 | , ) | 1, 1)L( X 2 | 2

,

2

)



 2

 (M 2

)



(M1 ) 

log

N

.

(2)

Положительное значение величины ∆BIC свидетельствует о том, что модель M1 является наиболее

предпочтительной, следовательно, наборы данных X1 и X2 следует отнести к одному кластеру.

Формулу (2) можно переписать в следующем виде:

 BIC



1 2

N1 log 1

 N2 log 2

 (N1  N2 ) log 1,2



 2



log(

N1



N2

)

,

(3)

где 1 , 2 – ковариационные матрицы данных X1 и X2 соответственно; 1,2 – ковариационная матрица

объединенных данных {X1, X2};  – число свободных параметров, для диагональной ковариационной

матрицы





d

,

для

полной

ковариационной

матрицы





d (d 1) 2

.

Алгоритм агломеративной кластеризации речевых сегментов

Алгоритм агломеративной кластеризации заключается в последовательном иерархическом попарном объединении (агломерации) кластеров (наборов речевых сегментов), принадлежащих одному диктору. При этом в качестве начальных кластеров используются речевые сегменты фонограммы, ограниченные двумя точками смены дикторов. Как для поиска точек смены дикторов, так и для определения принадлежности двух кластеров одному диктору используется BIC.
Разработанный алгоритм агломеративной кластеризации состоит из 4 этапов. 1. Выделение речевых сегментов фонограммы. 2. Расчет акустических признаков по всей фонограмме. 3. Поиск точек смены дикторов.
1. Акустические признаки, лежащие внутри выделенных речевых сегментов, последовательно объединяются в непрерывный массив данных. В дальнейшем работа идет только в рамках этого массива.
2. По всему полученному массиву перемещается окно фиксированной длины 2w с фиксированным шагом h. Окно разбивается на две равные части, левой части окна соответствуют данные
X1, правой – X2 (формула (3)). Для точки h  i  w , являющейся серединой окна, рассчитывает-
ся величина BICi при   CPD .
3. Среди всех полученных таким образом значений выбираются локальные минимумы
M  {m : BICm1  BICm  BICm1, BICm  0} .

Научно-технический вестник информационных технологий, механики и оптики, 2013, № 1 (83)

91

АГЛОМЕРАТИВНАЯ КЛАСТЕРИЗАЦИЯ РЕЧЕВЫХ СЕГМЕНТОВ ФОНОГРАММЫ...

4. Среди всех полученных локальных минимумов M выбирается значение m  arg min(BICm ) . При этом локальные минимумы из множества M , располагающиеся к
mM

выбранному значению ближе, чем w, удаляются: M  M {m : m  m  w} .

5. Пункт 4 повторяется до тех пор, пока множество M не пусто. 6. Точки {h  m w} берутся в качестве точек смены дикторов.

4. Агломеративная кластеризация. 1. Формируется набор кластеров C  {ck } , каждый элемент которого состоит из множества речевых сегментов, ограниченных двумя соседними точками смены дикторов.

2.

Подсчитываются

попарные

значения

{BICk

,l

}C k ,l

1

по формуле (3) между всеми кластерами

при    AC .

3. Если существует пара кластеров ck*, cl* :{k*,l*}  arg max(BICk,l ), BICk*,l*  0 , то они объеk ,l

диняются в один кластер ck*  ck*  cl* , при этом кластер cl* удаляется: C  C {cl*} .

4. Пункты 2–3 повторяются до тех пор, пока происходят объединения.

5. Получившийся набор кластеров C и будет являться решением задачи разделения дикторов.

Важно отметить необходимость использования различных пороговых значений при подсчете ве-

личины BIC на этапе определения точек смены дикторов ( CPD ) и на этапе агломеративной кластери-

зации ( AC ). Эта необходимость обусловлена тем, что при поиске точек смены дикторов ключевым тре-

бованием является низкий уровень ошибки пропуска. Возникающий в этом случае высокий уровень

ошибки ложного срабатывания компенсируется на этапе агломеративной кластеризации.

Результаты численных экспериментов

В качестве тестовой базы использовались 20 60-минутных аудиозаписей радио «Свобода» [6]. Все

аудиозаписи имеют один канал с частотой дискретизации 16000 Гц. Для всей базы тестирования была

создана эталонная разметка с указанием имен дикторов и принадлежащих им речевых сегментов. Рече-

вые сегменты каждого диктора были дополнительно разделены на 4 категории:

1. чистая речь (71,86%);

2. речь на фоне шума (8,66%);

3. речь на фоне речи (11,20%);

4. речь на фоне музыки (8,28%).

Среднее количество дикторов в одном файле базы тестирования составило 25.

Для численных экспериментов речевые сегменты брались из эталонной разметки без использова-

ния какой-либо дополнительной обработки.

В качестве акустических признаков использовались:

 мел-частотный банк фильтров (MBF);

 мел-частотные кепстральные коэффициенты (MFCC).

Для построения акустических признаков были использованы следующие характеристики:

 окно быстрого преобразования Фурье (БПФ) – 16 мс;

 шаг окна БПФ – 10 мс;

 частотный диапазон для банка фильтров – от 0 до 8000 Гц.

Дополнительно к акустическим признакам были добавлены логарифм энергии (E), производные

первого (  ) и второго ( 2 ) порядков.

Для оценки качества системы использовался стандартный показатель вероятности ошибки разде-

ления дикторов (Diarization Error Rate, DER), используемый в NIST RTE 2006 [1]:

  dur(S)  max Nref (S), Nsys (S)  Ncorrect (S)

DER  S

  dur(S)  Nref (S)

100% ,

S

где S – непрерывный речевой сегмент фонограммы; dur (S) – длина этого сегмента; Nref (S) – число дикторов, которым принадлежит речевой сегмент S, в соответствии с эталонной разметкой; Nsys (S) – число дикторов, которым принадлежит речевой сегмент S, в соответствии с полученной разметкой; Ncorrect (S) – число корректно определенных дикторов на речевом сегменте S.

Размер окна w для поиска точек смены дикторов брался равным 3 с, шаг h брался равным 0,2 с.

Результаты численных экспериментов, представляющих зависимость величины DER от исполь-

зуемых акустических признаков и типа ковариационной матрицы, представлены в табл. 1.

92 Научно-технический вестник информационных технологий, механики и оптики,
2013, № 1 (83)

О.Ю. Кудашев

Акустические признаки
MBF MFCC MFCC + E MFCC + E +  MFCC + E +  + 2

Размерность признаков
20 20 20 40 60

Полная ковариационная матрица

CPD

 AC DER (%)

1,2 3,2 8,0

1,0 3,5 7,7

1,0 3,3 7,8

0,6 1,3 7,3

0,55 1,1

7,2

Диагональная ковариационная матрица

CPD

 AC DER (%)

5 30 21,1

4,8 27 4,8 27

8,5 8,3

3 18 6,4

2,3 14

6,6

Таблица 1. Зависимость DER от акустических признаков и типа ковариационной матрицы

Результаты численных экспериментов, представляющих зависимость относительной производительности системы от типа ковариационной матрицы и размера акустических признаков, представлены в табл. 2, где относительная производительность измеряется как отношение продолжительности всех речевых сегментов фонограммы ко времени работы системы. Все измерения были проведены при работе алгоритма на одном ядре процессора Intel Core i5 760 2.8 GHz.

Размерность акустических признаков
20 40 60

Относительная производительность Полная ковариационная матрица Диагональная ковариационная
матрица 210 3600 56 1900 23,5 1280

Таблица 2. Зависимость относительной производительности системы от типа ковариационной матрицы и размера акустических признаков

Заключение

Разработанная система агломеративной кластеризации речевых сегментов фонограммы представляет собой эффективное решение с точки зрения соотношения эффективности и производительности. Как показывают численные эксперименты, данная система способна показать значение ошибки DER равной 6,4% на русскоязычных аудиозаписях радиовещания, где происходит редкая смена дикторов. Как показано в табл. 2, относительная производительность системы сильно зависит от применения полной или диагональной ковариационной матрицы. Интересным представляется тот факт, что в случае использования слабо корреллирующих акустических признаков мел-частотных кепстральных коэффициентов применение диагональной ковариационной матрицы способно привести к уменьшению ошибки. При использовании полной ковариационной матрицы увеличение размерности акустических признаков приводит к сильному падению производительности прямо пропорционально квадрату размерности признаков, что еще раз демонстрирует целесообразность использования диагональной ковариационной матрицы.
Данная система разработана на кафедре «Речевые информационные системы», являющейся базовой кафедрой компании ООО «Центр речевых технологий». Она успешно применяется в системах автоматической обработки и распознавания речи.

Литература

1. Rich Transcription Evaluation Project [Электронный ресурс]. – URL: http://www.itl.nist.gov/iad/mig/tests/rt/, свободный. Яз. англ. (дата обращения 20.09.2012).
2. Kenny P. Bayesian Analysis of Speaker Diarization with Eigenvoice Priors // Technical report, Centre de recherche informatique de Montreal (CRIM). – Montreal, Canada. – May 2008. – 17 p.
3. Кудашев О.Ю., Пеховский Т.С. Проблема инициализации систем сегментации дикторов на основе вариационного байесовского анализа // Научно-технический вестник информационных технологий, механики и оптики. – 2012. – № 3 (79). – С. 83–87.
4. Reynolds D., Kenny P., Castaldo F. A Study of New Approaches to Speaker Diarization // Proc. Interspeech – 2009. – P. 1047–1050.
5. Jin Q., Laskowski K., Schultz T., Alex Waibel A. Speaker segmentation and Clustering in Meetings // Proc. ICASSP-2004 Meeting Recognition Workshop. – Montreal, Canada. – May 2004. – P. 112–117.
6. Радио Свобода [Электронный ресурс]. – URL: http://www.svobodanews.ru/, свободный. Яз. рус. (дата обращения 20.09.2012).

Кудашев Олег Юрьевич

– ООО «ЦРТ-инновации», программист, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, kudashev@speechpro.com

Научно-технический вестник информационных технологий, механики и оптики, 2013, № 1 (83)

93