Например, Бобцов

ОСОБЕННОСТИ ЧЕЛОВЕКО-МАШИННОГО ИНТЕРФЕЙСА СОВРЕМЕННЫХ СИСТЕМ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ

66
УДК 004.93+57.087.1
Д. В. ДЫРМОВСКИЙ, С. Л. КОВАЛЬ
ОСОБЕННОСТИ ЧЕЛОВЕКО-МАШИННОГО ИНТЕРФЕЙСА СОВРЕМЕННЫХ СИСТЕМ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ
Обоснованы требования к организации человеко-машинного интерфейса для современных систем автоматической и автоматизированной идентификации личности, основанных на анализе биометрических признаков. Ключевые слова: человеко-машинный интерфейс, идентификация личности, биометрическая система идентификации, голосовая биометрия.
Введение. Системы автоматической идентификации личности (САИ) по биометрическим признакам получают все большее распространение. Они предназначены для решения задач учета и мониторинга неизвестных лиц, выполнения криминалистических идентификационных экспертиз. Рассмотрим особенности интерфейса и структуры САИ на примере использования динамических идентификационных признаков речевого сигнала.
Оптимальное представление результатов работы САИ. В современных САИ используется процедура обучения на больших базах биометрических данных совпадающих и различающихся личностей. Например, в обучающих базах речевых САИ содержатся файлы речи нескольких тысяч дикторов, записанных в разных условиях. Корпусной подход позволяет автоматически выбрать оптимальные правила и параметры идентификации, сопоставляющие скалярному расстоянию х между сравниваемыми речевыми файлами значения вероятности совпадения/различия дикторов. САИ сравнивает пары дикторов и по найденному для них х выдает вероятностный результат тождества/различия дикторов, практическая интерпре-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Особенности человеко-машинного интерфейса систем биометрической идентификации 67

тация которого может различаться для разных задач. Например, для задачи верификации достаточно принимать решение „Да“—„Нет“.
Для решения задачи идентификации необходимы оценка точности предлагаемого решения и оценка его неопределенности. Характеристики речевого сигнала существенно зависят от свойств каналов звукозаписи и звукопередачи, состояния диктора, типа речевой коммуникации, сопутствующих помех и искажений и т.п. В силу этого создать представительные обучающие базы данных невозможно. Существующие учетные САИ [1—3] выдают результат только в виде ранжированного списка сравниваемых дикторов, что неприемлемо для единичных сравнений. Интерфейс САИ должен позволять пользователю выбрать оптимальную форму представления результатов и учесть характеристики конкретных сравниваемых дикторов, ориентируясь на случаи и множественного, и единичного сравнения. Ни одна из существующих прикладных и исследовательских САИ этим требованиям не удовлетворяет [1—6].
Известно много способов представления результатов работы САИ [7—9], однако выбор способа, оптимального для речевых систем, не очевиден. САИ проводит поиск целевого диктора в списке проверяемых. Предлагается представлять результат работы САИ в виде списка похожих дикторов (СП), полученного усечением списка всех проверяемых дикторов на основе предлагаемых показателей оценки работы системы. Будем исходить из того, что любая САИ для каждой пары целевой диктор—проверяемый диктор вычисляет наборы характеристических признаков и скалярное расстояние х между этими наборами. Используются показатели: FRR(x) — False Rejection Rate — оценка вероятности ошибки 1-го рода: вероятность того, что файлы с речью целевого („своего“) диктора из списка проверяемых файлов не попадут в СП, если расстояние x от них до эталона будет больше соответствующего заданному значению FRR. FAR(x) — False Acceptance Rate — оценка вероятности ошибки 2-го рода: вероятность того, что файлы с речью нецелевого („чужого“) диктора из списка проверяемых файлов попадут в СП, если расстояние x от них до эталона будет меньше соответствующего заданному значению FAR. LR(x) — likelihood Ratio — оценка отношения правдоподобия для гипотез совпадения и различия дикторов при данном x между сравниваемыми файлами. LR(x) рассчитывается как отношение вероятности отклонить „своего“ диктора при расстоянии между сравниваемыми дикторами больше данного x к вероятности принять „чужого“ диктора за своего при расстоянии между сравниваемыми файлами меньше x:

LR(x)

=

FRR( x) FAR( x)

( FRR(x) + ( FRR(x) +

FAR( x) ) FAR( x) )

=

FRR( x) FAR( x)

.

(1)

Формула (1) имеет следующее толкование: вероятность верности нулевой гипотезы для интервала значений расстояния между дикторами больше данного x равна отношению доли попавших в этот интервал совпавших пар дикторов (т.е. FRR(x)) к общему числу пар дикторов, расстояние между которыми попало в этот интервал (т.е. FRR(x)+FAR(x)). Аналогично толкуется и знаменатель дроби в формуле.
Введем следующие понятия: P — общая вероятность совпадения сравниваемых дикторов; DET-график (Detection Error Trade-off) — график зависимости FRR от FAR.
Пример представления этих величин для системы автоматической идентификации VoiceNet приведен в таблице и на рис. 1 и 2. На рис. 1 представлены результаты идентификации САИ VoiceNet одного диктора (его данные заданы строкой в верхнем окне экрана) при сравнении с большим списком дикторов. Результат каждого сравнения указан в строках нижнего окна экрана. В каждой строке указан номер сравниваемого диктора в списке сравнения, идентификатор в базе данных, FRR, FAR, LR, имя секции базы данных, имя карточки диктора, имя звукового файла, тип источника звука. На рис. 2 приведен DET-график для результата сравнения двух дикторов в системе VoiceNet.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

68 Д. В. Дырмовский, С. Л. Коваль

FRR, % 29,07 7,20 1,07 1,00 0,67 0,53 0,50 0,10

FAR, % 0,01 0,10 0,50 0,56 1,00 5,00 6,74 33,44

LR, у.е. 2907 72 2,1 1,78 0,67 0,11 0,07 0,003

P 0,999 0,986 0,68 0,64 0,40
0,1 0,07 0,003

Рис 1

Рис. 2

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Особенности человеко-машинного интерфейса систем биометрической идентификации 69

Проиллюстрируем возможность использования этих показателей для конкретной САИ [10].

После сравнения диктора с данными базы из 100 000 голосов получим СП, ранжированный

по степени сходства с данным диктором. Если ограничить рассматриваемый СП только дик-

торами, для которых LR> 2907, то диктор, находящийся в списке проверяемых, попадет в СП

с вероятностью ≈70 %, а с вероятностью ≈30 % — не попадет. Такой способ выбора порога обладает существенным преимуществом. Соответствующее выбранному порогу значение

FAR= 0,01 % означает, что в СП попадет не более 10 „чужих“ дикторов. Пользователь САИ за

относительно малое время может проверить „ручными“, трудоемкими, экспертными средст-

вами реальность тождества целевого диктора с этими 10 дикторами и выяснить, есть он дей-

ствительно среди них или нет. Для 10 дикторов такая проверка на практике реализуема, а для

большего числа дикторов уже трудноосуществима. Такой порог выгодно применять при про-

верке по большой базе неизвестных дикторов. Пропуск „своего“ диктора вероятен, но ввиду

ограниченности ресурсов операторов системы по „ручной“ проверке СП выбор такого порога

часто является единственной возможностью обнаружить в базе неизвестного искомого

диктора.

При ограничении рассматриваемого СП только дикторами, для которых LR>0,67, если

целевой диктор есть в списке проверяемых, то он не попадет в СП с вероятностью всего

≈0,7 %. Однако у такого выбора порога отсечки есть существенный недостаток. Соответствующее выбранному порогу значение FAR= 1 % означает, что наиболее вероятно в СП попа-

дет около 1000 „чужих“ дикторов, которые САИ сочтет близкими к целевому. Проверить

„ручными“ средствами реальность тождества этих 1000 дикторов с целевым затруднительно.

Тем не менее, такой порог выгодно применять при проверке по малой базе проверяемых дик-

торов. DET-график дает возможность выбора подходящих порогов отсечки для конкретной

задачи с еще большей точностью, чем таблица.

Применение концепции доверительности данных к работе САИ. САИ применяются

и в судебных экспертизах [4, 5, 11—14] при сравнении всего двух объектов. В этом случае

результаты работы САИ целесообразно применять в рамках так называемого байесовского

подхода [8, 15—17], объединяя данные исследований различных методов в единой формуле

на основе значений LR по каждому из методов. Однако возможность применения статистиче-

ских результатов обучения САИ к единичному случаю совершенно неочевидна. САИ вычис-

ляет LR, что требует оценки неопределенности измерения [18]. Значение P можно обоснован-

но считать оценкой случайной величины, а в качестве параметров неопределенности результата

оценки предлагается считать границы односторонних доверительных интервалов (ДИ) [19], ко-

торые определяются на основе подхода, близкого к методике NIST [20], которая использова-

лась для сравнительной оценки неопределенности результатов различных САИ. Нами рас-

сматривается оценка неопределенности результатов работы отдельной САИ.

На этапе обучения САИ получает распределения частоты встречаемости расстояний x

для пар совпадающих и различающихся дикторов. При решении задачи идентификации воз-

можны два варианта: H0 — сравниваемые дикторы совпадают и H1 — различаются. Пусть P(H0|x) — апостериорная вероятность правильности гипотезы о совпадении дикторов. Тогда, согласно формуле Байеса:

P(H0

x)

=

P(x

P(x H0 )P(H0 ) H0 )P(H0 ) + P(x H1)P(H1)

,

(2)

где P(H0) и P(H1) — априорные вероятности гипотез, P(x|H0) и P(x|H1) — вероятности получения x при верности каждой из гипотез. Значения P(H0) и P(H1) для простоты полагаются равными.

Апостериорная вероятность P(H0|x) моделируется сигмоидной функцией зависимости от х [21], оценка параметров которой проводится на обучающей базе данных. На рис. 3

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

70 Д. В. Дырмовский, С. Л. Коваль приведен пример зависимости апостериорной вероятности P(H0|x) от х, полученной для конкретной САИ [10] на основе анализа гистограмм распределений х для совпадающих (эллипсы) и различающихся (крестики) дикторов в обучающей базе данных.
P(H0|x)
0,8
0,6
0,4
0,2

0 0,1 0,2 0,3 0,4 0,5 0,6 х1 х2

Рис. 3

Однако реальная форма распределения x для больших обучающих баз данных речевых

САИ обычно далека от какого-либо стандартного типа. В силу этого при оценке ДИ для Р

предлагается использовать непараметрический bootstrap-метод, не требующий предположе-

ний о форме оцениваемого распределения [7, 20, 22]. Он позволяет оценивать распределение

P для генеральной совокупности, используя только одну большую выборку. Пусть оценка

апостериорной вероятности Pˆn = Pˆn (H0 x) получена для начальной выборки ( X1 , ..., X n ) .

Чтобы оценить ДИ, в который с заданной вероятностью попадают значения P(H0|x), конструируем из начальной выборки большое количество других выборок, выбирая в произволь-

ном порядке ее элементы „с возвратом“. Создадим наборы из B возможно повторяющихся

элементов

( X1*, ...,

X

* n

)

и вычислим для них соответствующие значения

Pˆn* (b),

b = 1, ..., B . На

основе оценок для bootstrap-выборок вычислим bootstrap-распределение Pˆn* :

G* ( p) = P{Pˆn* ≤ p} — аналог распределения наборов обычных выборок из генеральной сово-

купности. Соответствующие процентили этого распределения определяют квантили уровня

значимости α и 1 − α G*−1(α) = inf{x : G*(x) ≥ α} и G*−1(1 − α) как нижнюю и верхнюю гра-

ницы 1 − 2α ДИ для оценки Pˆn = Pˆn (H0 x) [22].

В качестве характеристик САИ выберем односторонний доверительный интервал

(ОДИ). Верхний ОДИ:

P(−∞ < P(H0 x) ≤ Pnu ) = α ,

(3)

где Pnu = G*−1(1 − α ) , и нижний ОДИ:

P(Pnl ≤ P(H0 x) < ∞) = α ,

(4)

где Pnl = G*−1(α) .

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Особенности человеко-машинного интерфейса систем биометрической идентификации 71
Для оценки результатов сравнений дикторов, близких к целевому, предлагается использовать нижнее значение ОДИ, а для дикторов, отличающихся от целевого — верхнее. Классический bootstrap-метод предполагает независимость элементов исходной выборки, что неверно для случая, когда сравниваются звуковые файлы одного и того же диктора. Для решения этой проблемы предлагается использовать subset bootstrap [23].
Экспериментальные результаты. На рис. 4 показана зависимость вероятности совпадения дикторов от расстояния между файлами (сплошная кривая) и кривая (пунктир) доверительных границ (ДГ), показывающая положение границ односторонних доверительных интервалов для α= 0,95. Такой уровень доверительности означает, что отображаемая кривой доверительных границ P(H0|x) имеет значения „не хуже“ показанных на графике, по крайней мере, для 95% дикторов в обучающей базе данных. „Хуже“ и Ст„олАлуИчькшоое“псродивлпяваыдппеонолильнзиоевднаииткиетлуоесрйлоовСвАипяоИнPиоnмзuналу0ор,жо5ви,нтаяелодьтонрвоиеецраирттееешллеььннниооеести дает значение вероятности совпадения дикторов, минимальное — при условии принятия решения об их совпадении и максимальное — при условии принятии решения об их различии. При использовании ДГ возникает принципиально новая область возможных решений, в которой с заданным уровнем доверительности нельзя принять ни положительного, ни отрицательного решения (LR=1). На рис. 4 это зона для значений x ∈ (0, 26; 0, 28) .
P(H0|x)
0,8
0,6
0,4
0,2
0 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 х Рис. 4
PP(nHl (0H|xН01)а|пx=р2и)0м=,е80р,,и9д7лP.я(HНд0аа|нxн2р)оийс=.0С,5А98ИпрссиорвоеетддвнееентесытзвнруаеечзтеунлзиьнетаачатепыноиситядемреникотририфнвоиойкйавцДеирГиояPтсnниlос(тсHетми0 ы|дxл1Sя)Iз=SнI0Iа,ч6(еS7нTиCйи 2012), вероятностные результаты сравнения дикторов для двух речевых файлов, ДИ и ДГ (жирный шрифт).
На рис. 6 приведены ДГ для двух разных баз: микрофонные интервью в NIST SRE 2008 [24] и телефонные диалоги в аналоговых ТСОП в базе RuSTeN [25]. P(H0|x) САИ [19] для баз данных NIST SRE 2008 (1) и RuSTeN (2) и кривые доверительных границ для P(H0|x) для NIST SRE 2008 (3) и RuSTeN (4), вычисленные при α= 0,95. Кривая ДГ показывает значения P(H0|x) для 95 % „лучших“, с точки зрения принимаемого идентификационного решения, дикторов в обучающей базе.
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

72 Д. В. Дырмовский, С. Л. Коваль

P(H0|x) 0,8 0,6 0,4 0,2

Рис. 5 12 34

0 0,1 0,2 0,3 0,4 0,5 0,6 х
Рис. 6
Приведенные данные показывают высокую степень зависимости результатов работы САИ от типа обучающей базы данных, что требует наличия в пользовательском интерфейсе САИ настроек на свойства звуковых файлов.
Заключение. В работе предложены разработанные авторами, проверенные на практике подходы к организации пользовательского интерфейса САИ, ориентированные на решение задач мониторинга, учета и выполнения судебных экспертиз.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Особенности человеко-машинного интерфейса систем биометрической идентификации 73
СПИСОК ЛИТЕРАТУРЫ
1. АПК „PhonoBase“ [Электронный ресурс]: .
2. [Электронный ресурс]: .
3. [Электронный ресурс]: .
4. Попов Н. Ф. и др. Идентификация лиц по фонограммам русской речи на автоматизированной системе „Диалект“. М., 1996.
5. Тимофеев И. Н. и др. Применение автоматизированной системы „Диалект“ на базе компьютерной речевой лаборатории CSL (США) при решении задач идентификации дикторов: Метод. рекомендации. ЭКЦ МВД РФ, 2000.
6. Martin A. F., Greenberg C. S. The NIST 2010 Speaker Recognition Evaluation // INTERSPEECH 2010. Makuhari, Chiba, Japan, 2010. P. 2726—2729.
7. Wu J. C., Martin A. F., Kacker R. N. Measures, Uncertainties, and Significance Test in Operational ROC Analysis // J. Res. NIST. 2011. Vol. 116, N 1. P. 517—537.
8. Campbell W. M. et al. Estimating and evaluating confidence for forensic speaker recognition // Proc. ICASSP2005. Philadelphia, PA, 2005.
9. Rose P. Technical forensic speaker recognition: Evaluation, types and testing of evidence // Computer Speech and Language. 2006. Vol. 20, N 2—3. P. 159—191.
10. Belykh I. N. et al. The speaker identification system for the NIST SRE 2010 // Informatics and its Applications. 2012. Vol. 6, N 1. P. 91—98.
11. Drygajlo A. Forensic automatic speaker recognition // IEEE Signal Processing Magazine. 2007. Vol. 24, N 2. P. 132—135.
12. Drygajlo A. Statistical Evaluation of Biometric Evidence in Forensic Automatic Speaker Recognition // IWCF 2009. Hague, Netherlands, 2009.
13. Interspeech 2008 special session “Forensic Speaker Recognition Traditional and Automatic Approaches“ [Электронный ресурс]: .
14. Зубова П. И., Коваль С. Л. Методика экспертной идентификации дикторов по голосу и речи на основе комплексного анализа фонограмм // Теория и практика судебной экспертизы. 2007. Т. 3, № 7. С. 68—76.
15. Evett I., Buckleton J. Some aspects of the Bayesian approach for evidence evaluation // J. of Forensic Science Society. 1989. Vol. 29. P. 317—324.
16. Meuwly D., Drygajlo A. Forensic speaker recognition based on a Bayesian framework and Gaussian mixture modeling // Proc. „Odyssey“. 2001. P. 145—150.
17. Gonzalez-Rodriguez J. et al. Robust likelihood ratio estimation in Bayesian forensic speaker recognition // Proc. Eurospeech. 2003. P. 693—696.
18. Guide to the Expression of Uncertainty in Measurement. Geneva, ISO, 1993.
19. Koval S., Lokhanova A. Confidence Bounds Curves as a Tool for Evaluation of Automatic Speaker Recognition Results Uncertainty // Proc. 14th Intern. Conf. on Speech and Computer. SPECOM 2011. Kazan, 2011. P. 284—289.
20. Wu J., Martin A. F., Greenberg C. S., Kacker R. N. Measurement Uncertainties in Speaker Recognition Evaluation // NIST Publication. 2010. P. 7722.
21. Platt J. Probabilistic outputs for Support Vector Machines and comparisons to regularized likelihood methods // Advances in Large Margin Classiers. Cambridge: MIT Press, 1999.
22. Bolle R.M. et al. Error Analysis of Pattern Recognition Systems: the Subsets Bootstrap // Computer Vision and Image Understanding. 2004. Vol. 93, N 1. P. 1—33.
23. Efron B., Tibshirani R. J. An Introduction to the Bootstrap. NY, 1993.
24. [Электронный ресурс]: < http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011S11>.
25. LDC 2006S34 [Электронный ресурс]: .
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

74
Дмитрий Викторович Дырмовский
Сергей Львович Коваль

Ю. Н. Матвеев
Сведения об авторах — филиал ООО „ЦРТ“, Москва; директор филиала; Санкт-Петер-
бургский национальный исследовательский университет информационных технологий, кафедра речевых информационных систем; соискатель; E-mail: ddv@speechpro.com — канд. техн. наук, доцент; филиал ООО „ЦРТ“, Москва; главный эксперт; E-mail: koval@speechpro.com

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2