Например, Бобцов

НЕПАРАМЕТРИЧЕСКИЕ АЛГОРИТМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ В ЗАДАЧЕ ПРОВЕРКИ ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИЯХ СЛУЧАЙНЫХ ВЕЛИЧИН

67
УДК 681.513
А. В. ЛАПКО, В. А. ЛАПКО
НЕПАРАМЕТРИЧЕСКИЕ АЛГОРИТМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ В ЗАДАЧЕ ПРОВЕРКИ ГИПОТЕЗЫ
О РАСПРЕДЕЛЕНИЯХ СЛУЧАЙНЫХ ВЕЛИЧИН
Предлагается методика проверки гипотез о тождественности законов распределения случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания. Приводятся результаты сравнения методики с критерием Колмогорова — Смирнова. Ключевые слова: непараметрическая статистика, распознавание образов, проверка гипотез, распределения случайных величин.
Проверка гипотез о распределениях случайных величин является одной ключевых задач математической статистики и имеет важное прикладное значение, например, при сравнении эффективности приборов и систем контроля с данными их испытаний. Для проверки гипотез о распределениях случайных величин широко используется критерий согласия Пирсона, который не зависит от распределений случайных величин и их размерности [1]. Однако методика формирования критерия Пирсона содержит трудноформализуемый этап разбиения области возможных значений случайной величины на многомерные интервалы. Данный этап не отражен в критерии Колмогорова — Смирнова, который позволяет проверять гипотезы о распределениях одномерных случайных величин [2].
В работе [3] показана возможность использования непараметрических алгоритмов распознавания образов, соответствующих критерию максимального правдоподобия,
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4

68 А. В. Лапко, В. А. Лапко
в задаче проверки статистических гипотез о распределениях случайных величин. Результаты использования предлагаемой методики сопоставимы с критерием Колмогорова — Смирнова для одномерных задач в условиях, когда число элементов сравниваемых последовательностей случайных величин различается незначительно. При неравных объемах случайных последовательностей эффективность предлагаемой методики снижается. Данный факт согласуется с результатами исследований [4], где показано значительное ухудшение аппроксимационных свойств непараметрической оценки уравнения разделяющей поверхности между классами при увеличении степени неравномерности распределения элементов обучающей выборки.
Цель исследования, описываемого в настоящей статье, — развитие данной методики на основе использования принципов коллективного оценивания при синтезе непараметрических алгоритмов распознавания образов.
Модифицированная методика проверки гипотезы о распределениях случайных величин. Пусть X1 и X 2 — генеральные совокупности с произвольными законами распределения. Необходимо по независимым выборкам V1 = xi , i = 1, n1 , и V2 = xi , i = 1, n2 , полученным из данных генеральных совокупностей, проверить либо опровергнуть гипотезу
H : P1 ( x) ≡ P2 ( x)
о тождественности функций распределения. Известно, что если при решении двухальтернативной задачи распознавания образов ве-
роятность ошибки классификации равна 0,5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы H о равенстве
статистической оценки вероятности ошибки распознавания образов значению 0,5. При реализации предлагаемой модифицированной методики необходимо выполнить
следующие действия. 1. Пусть число элементов сравниваемых последовательностей случайных величин отли-
чается значительно, например n1 > n2 . Требуется сформировать совокупность сравниваемых
последовательностей V1 ( j ) = xi , i ∈ I j , V2 = xi , i = 1, n2 , j = 1, T . Элементы выборки V1 ( j )
объемом n2 формируются случайным образом из последовательности V1; здесь I j — множе-
ство номеров элементов последовательности V1, составляющих последовательность V1 ( j ) .
Присвоим элементам множества I j значения n2 + t, t = 1, n2 .
(2. На основе множеств V1 ( j), V2 определить обучающую выборку V ( j) = xi ,
)σ(i), i = 1, 2n2 для решения задачи распознавания образов, где

σ

(i

)

=

⎪⎧−1 ⎨



⎩⎪ 1 ∀

xi ∈ Ω1, xi ∈ Ω2

свидетельствует о принадлежности значения xi к тому либо иному классу Ω1 , Ω2 . При этом
полагаем, что элементы множеств V1 ( j ) и V2 принадлежат соответственно классам Ω1 , Ω2 . 3. По выборке V ( j ) осуществить синтез непараметрического алгоритма распознавания
образов, соответствующего критерию максимального правдоподобия [5]:

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4

Непараметрические алгоритмы распознавания образов

m

j

(

x

)

:

⎧⎪ ⎨ ⎩⎪

x x

∈ ∈

Ω1 Ω2

∀ ∀

f12j ( x ) ≤ 0, f12j ( x ) > 0.

При формировании оценки уравнения разделяющей поверхности

f12j ( x) = p2 ( x) − p1j ( x )

будем использовать непараметрические оценки

∑p2

(x)

=

( n2

c )−1

n2 ⎛ i=1 Φ ⎝⎜⎜

x

− xi c

⎞ ⎟⎟⎠

,

69 (1)
(2)

∑p1j

(x)

=

( n2

c )−1

2n2 ⎛ i=n2 +1Φ ⎜⎝⎜

x

− xi c

⎞ ⎠⎟⎟

плотностей вероятности распределения x в классах Ω1 , Ω2 типа Розенблатта — Парзена [6].
Ядерные функции Φ (u) удовлетворяют условиям Φ (u) = Φ (−u) , 0 ≤ Φ(u) < ∞ ,

+∞
∫ Φ(u)du = 1, а значения их коэффициентов размытости с убывают с увеличением n2 .
−∞
Тогда статистика (2) может быть представлена выражением

∑f12j

(x)

=

( n2

c )−1

2n2 i=1

σ

(

i

)

Φ

⎛ ⎝⎜⎜

x

− xi c

⎞ ⎟⎟⎠

.

(3)

Выбор оптимального значения c коэффициента размытости непараметрического ре-

шающего правила m j ( x) осуществляется согласно условию минимума оценки вероятности

ошибки распознавания образов

где индикаторная функция

ρ

j

(c)

=

1 2n2

2n2
∑1( σ (t ) , σ (t ))
t =1

,

1(

σ

(t

)

,

σ

(

t

))

=

⎧⎪0 ⎩⎨⎪1

∀ ∀

σ(t) = σ(t); σ(t) ≠ σ(t),

здесь σ(t ) — „решение“ алгоритма m j ( x) о принадлежности значений xt к тому либо иному

классу Ω1 , Ω2 , полученное в соответствии с правилом (1).

При вычислении ρ j (c) „решение“ σ(t ) алгоритма (1) определяется в соответствии со

знаком статистики

( ) ∑f12j

xt

=

( n2

c )−1

2n2 i=1

σ

(

i

)

Φ

⎛ ⎜⎝⎜

xt

− c

xi

⎞ ⎟⎟⎠

,

i≠t

т.е. значение xt исключается.

4. Проверить гипотезу H ( j ) : ρ j (c ) = 0,5 в соответствии с критерием Колмогорова —

Смирнова. Для этого сравним его пороговое значение [7]

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4

70 А. В. Лапко, В. А. Лапко

Dα =



ln

⎛ ⎜⎝

α 2

⎞ ⎟⎠



1 4n2

с отклонением D1j2 = 0, 5 − ρ j (c ) ; здесь α — вероятность (риск) отвергнуть правильную ги-
потезу H ( j) . Если выполняется соотношение D1j2 < Dα , то гипотеза H ( j ) справедлива, иначе —
она отвергается.
5. В соответствии с пп. 2—4 проверить гипотезы H ( j ) на основе последовательностей

случайных величин V1 ( j ) , V2 , j = 1, T . По полученным данным рассчитать оценки вероятно-
стей P1 = S T , P = S T справедливости гипотезы H и ее отклонения соответственно. Здесь
S — количество „решений“ о справедливости гипотез H ( j ) , j = 1, T , а S — количество
решений об их отклонении. 6. Проверить достоверность отличия оценок P1 и P с использованием критерия Колмо-
горова — Смирнова. Для этого вычислим его пороговое значение

Dα =



ln

α 2

T,

которое сравним с разностью D = P (T ) − P1 (T ) .

Исходная гипотеза H подтверждается, если D > Dα и P1 > P , в противном случае при
P1 < P она отвергается. Анализ результатов экспериментов. Было проведено сравнение эффективности базо-
вой [3] и модифицированной методик проверки гипотезы о распределениях случайных величин и критерия Колмогорова — Смирнова по данным вычислительных экспериментов. По-

следовательности V1 = xi , i = 1, n1, и V2 = xi , i = 1, n2 , случайных наблюдений формировались на основе датчиков случайных величин с равномерным xi = εi и нормальным

∑xi

⎛ = 0,5 + 0,15⎜⎜⎝

12
εj
j=1

⎞ − 6⎟⎟⎠ ,

i = 1, n ,

законами

распределения.

Случайные

величины

ε

с равно-

мерным законом распределения определены на интервале [0, 1] . При их формировании ис-

пользовался стандартный датчик псевдослучайных величин среды визуального программирования „Delphi“.
При фиксированных условиях исследования было проведено 100 вычислительных экспериментов. По полученным результатам при априори тождественных законах распределения случайных величин оценивалась вероятность P0 справедливости гипотезы H . Если законы
распределения отличались, оценивалась вероятность P1 отклонения гипотезы H . Риск α от-
вергнуть гипотезу H принимался равным 0,05.

При синтезе непараметрического классификатора использовались параболические ядерные функции Епанечникова [8].
Результаты вычислительного эксперимента при различных условиях проверки гипотезы о распределениях представлены на рис. 1 и 2: рис. 1 — зависимости оценок вероят-
ностей P0 справедливости гипотезы H от объема экспериментальных данных n = n1 + n2

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4

Непараметрические алгоритмы распознавания образов

71

для n1 = 1, 2n2 (а) и n1 = 2n2 (б) при сравнении двух априори тождественных нормальных законов распределения случайных величин; кривая 1 получена при использовании критерия Колмогорова — Смирнова, кривая 2 — базовой методики [3], кривая 3 — модифицированной методики при T = 10 ; рис. 2 — зависимости оценок вероятностей P1 отклоне-
ния гипотезы H от объема экспериментальных данных n = n1 + n2 для n1 = 2n2 при сравнении равномерного и нормального законов распределения (обозначения кривых соответствуют принятым для рис. 1).
а) P0
1 1

0,95 3

0,9 22
б) P0 1
0,9

110 198
3 1

2 286 374 462 п

0,8
0,7 0,6
30

150

P1
2 0,85
3 0,65 1 0,45

2
270 Рис. 1

390 п

0,25
0,05 30 150 270 390 п
Рис. 2
Представленные графики подтверждают эффективность модифицированной методики. Заключение. Применение рассмотренной модифицированной методики позволяет расширить условия проверки гипотез о распределениях. Эффективность предложенной методики сопоставима с критерием Колмогорова — Смирнова для одномерных задач. Полученные результаты могут быть обобщены для задачи проверки гипотез о тождественности законов распределения многомерных случайных величин.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4

72 А. В. Лапко, В. А. Лапко
Исследования, результаты которых представлены в настоящей статье, выполнены в рамках Федеральной целевой программы „Научные и научно-педагогические кадры инновационной России“ на 2009—2013 гг., гос. контракт № 02.740.11.0621.

СПИСОК ЛИТЕРАТУРЫ

1. Пугачев В. С. Теория вероятностей и математическая статистика. М.: Наука, 1979.

2. Смирнов Н. В. Оценка расхождения между кривыми распределения в двух независимых выборках // Бюл. Моск. ун-та. 1930. Т. 2, № 2. С. 3—14.

3. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. № 3(41). С. 8—11.

4. Лапко А. В., Лапко В. А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двухальтернативной задаче распознавания образов // Автометрия. 2010. Т. 46, № 3. С. 48—53.

5. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000.

6. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33, N 3. P. 1065—1076.

7. Шаракшанэ А. С., Железнов И. Г., Ивницкий В. А. Сложные системы. М.: Высш. школа, 1977.

8. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156—161.

Александр Васильевич Лапко Василий Александрович Лапко

Сведения об авторах — д-р техн. наук, профессор; Институт вычислительного моделирования
СО РАН, Красноярск; E-mail: lapko@icm.krasn.ru — д-р техн. наук, профессор; Сибирский государственный аэрокосмиче-
ский университет им. акад. М. Ф. Решетнёва, кафедра космических средств и технологий, Красноярск; Е-mail: lapko@icm.krasn.ru

Рекомендована СибГАУ

Поступила в редакцию 19.11.10 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 4