КОЛИЧЕСТВЕННЫЕ ОЦЕНКИ ПРИ МОДЕЛИРОВАНИИ ЯЗЫКОВОЙ СИСТЕМЫ

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ
УДК 001.103:002
И. Е. ВОРОНИНА
КОЛИЧЕСТВЕННЫЕ ОЦЕНКИ ПРИ МОДЕЛИРОВАНИИ ЯЗЫКОВОЙ СИСТЕМЫ
Рассматривается задача количественного оценивания сочетаемости языковых единиц при проведении исследований в области формализации естественного языка.
Ключевые слова: компьютерная лингвистика, обработка естественного языка, сочетаемость языковых единиц, компьютерное моделирование языковых объектов.
Для языкознания характерно соперничество системно-классификационного (номотетического) и индивидуально-идиографического методов [1]. Первый используется естественными и техническими науками и ориентирован на выявление в исследуемом материале основных закономерностей, которые могут быть представлены в виде упрощенных (обедненных), но легко формализуемых схем. Второй подход используется для полного описания отдельно взятого объекта или его свойства, имеющего особое значение для понимания сущности всего явления.
На начальном этапе развития так называемой инженерной лингвистики с логиколингвистическими исчислениями появилось большое количество системных лингвистических исследований. Но анализ неудач на пути создания систем автоматической обработки текста показал, что естественный язык (ЕЯ) является открытой коммуникативной системой. Разумным компромиссом вышеупомянутых подходов могло бы послужить создание набора исследовательских инструментов, которые бы, с одной стороны, были ориентированы на поиск закономерностей, выявление и формализацию правил ЕЯ, а затем и на их программное подтверждение, с другой — не отвергали исследовательских методик языковедовтрадиционалистов. Для выработки, выявления тенденций, способных непосредственно повлиять на принятие решения, количественных характеристик исследовательского процесса необходимы однозначные критерии количества.
Глобальная цель всех проводимых лингвистических исследований — „постичь“ структуру языка. Уровни структуры языка — это синтаксические предложения, слова, морфемы, фонемы. Изучать язык можно путем анализа и синтеза, ибо выявленные правила синтеза могут способствовать проведению анализа, и наоборот. Все языковые уровни характеризуются наличием базовых элементов. Так, например, на комбинаторику фигур (букв и слогов) накладываются ограничения в сочетаемости простых знаков — морфем. В свою очередь, комбинаторика морфем ограничивается сочетаемостью знаков более высокого порядка — слов. Затем, по мере развертывания текста, на комбинаторику слов накладываются ограничения в сочетаемости словосочетаний и предложений, а на них — экстралингвистические композиционносюжетные ограничения [2]. Тем самым выявляется направление укрупнения лингвистических
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5

6 И. Е. Воронина

объектов. Речь идет о выявлении и программном подтверждении правил сочетаемости языко-

вых единиц.

Выявлению правил может способствовать наличие программно реализованного набора

инструментов, позволяющего максимально автоматизировать данный процесс. Актуальность

проводимых исследований определяется тем, что правила сочетаемости языковых единиц не

только играют важную роль при синтезе текста, но и могут лечь в основу анализаторов разно-

го уровня (морфемно-морфологического, синтаксического, семантического). Ни одно из из-

вестных решений для создания анализаторов (наиболее результативные относятся к области

морфологии и синтаксиса) не получило общего признания. Вот почему исследования в этом

направлении могут представлять профессиональный интерес. Традиционно любая формали-

зация подразумевает наличие совокупности правил, позволяющих строить описание объ-

екта на декларативном или функциональном уровне. По сути дела, эти правила позволяют

ответить на вопрос „как можно“ (построить, описать, сделать и т.д.). Возможен подход к

формализации, основанный на системе правил „как нельзя“ [3, 4]. Правила вида „как

нельзя“ разбиваются на группы. Каждая группа правил определяет фильтр. Каждый

фильтр — это подсистема запретов на сочетаемость структурных единиц, весь предла-

гаемый инструментарий ориентирован на применение опыта и интуиции исследователя,

подкрепляемых использованием математических оценок для принятия решения в случае

недостаточно определенной сочетаемости структурных единиц.

Рассмотрим задачу построения лексических цепочек на заданном языковом уровне.

Предлагается формулировать правила в виде запретов на сочетаемость базовых единиц каж-

дого языкового уровня. Формулировать правила могут только эксперты, т.е. выбор, обосно-

вание и оценка решений не могут быть выполнены на основании точных расчетов вследствие

их качественной новизны и сложности. Принятие решений обычно предполагает, что инфор-

мация, используемая для их обоснования, достоверна и надежна. Но для задач, которые по

своему характеру являются качественно новыми, это предположение либо заведомо не реали-

зуется, либо в момент принятия решения его не удается доказать. Основные трудности обу-

словлены неполнотой имеющейся информации или ее недостаточно высоким качеством.

В недостаточно определенных ситуациях исследователь может самостоятельно оценить

возможности сочетания тех или иных структурных единиц. Эта оценка может носить лингвисти-

ческий характер. Явное сходство с анкетами, которые заполняют респонденты в ходе социальных

исследований, позволяет взять за основу методы детерминационного анализа [5], а также вос-

пользоваться идеями, изложенными в работе [6].

В нашем случае первичные эмпирические данные будут представлять собой совокупность

отображений вида E → Xi , i ∈ 1, …, n, где Е — множество объектов, Xi — множество значений

переменной xi , i — индекс, нумерующий переменные, участвующие в эмпирическом исследова-

нии или эксперименте. Используется всего одна переменная X = {x1, x2 , x3 , x4 , x5} : x1 — да, x2

— нет, x3 — не знаю, x4 — скорее да, чем нет, x5 — скорее нет, чем да.

Полученную функцию можно представить в виде табл. 1. Множество строк — это мно-

жество исследуемых объектов: слов (как сочетаний морфем), словосочетаний, предложений и

любых других объектов, для которых уместны подобные оценки.

Таблица 1

Представление функции

Объекты е(1) е(2)

Оценка x(1) x(2)

… е(k–1) е(k)

… x(k–1) x(k)

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5

Количественные оценки при моделировании языковой системы

7

Множества E, Xi , i ∈ 1, …, n, дискретны и конечны, что является прямым следствием

их номинальности. При использовании предложенного метода учитывается процесс комму-

никации (диалога), поэтому проводимые измерения являются номинальными, или качествен-

ными.

Рассматриваются объекты уровня n, обеспечивающие универсальность контекста. Для

каждого из этих объектов определяется значение переменной x, таким образом, задается ото-

бражение E → X j , j ∈ 1, ..., n. При этом значение переменной х задается путем опроса. Ис-

следователь принимает решение самостоятельно, используя собственный опыт и интуицию.

Вторым шагом будет являться выделение тех составляющих объекта, сочетание которых

представляет интерес. Сочетаемость, собственно говоря, и определяется правилом ЕСЛИ а, ТО

b (а → b). Здесь а — это утверждение вида Comp1 & Comp2, где Comp1 и Comp2 — те составляющие объекта, о сочетаемости или несочетаемости которых надо принять решение; b —

утверждение о том, что такое сочетание имеет место.

Следует заметить, что в нашем случае правило на самом деле имеет вид: ЕСЛИ а, ТО

возможно b (a → b).

Интерпретация правила: сочетаемость ( И < единица (объект) уровня n – 1 >) имеет место с определенной долей уверенности.

Для большей наглядности, не изменяя семантику правила, будем записывать его сле-

дующим образом: Comp1 → Comp2, или, при необходимости, Comp1 ⎯x⎯i → Comp2, когда подразумевается степень уверенности xi .

В зону определенности попадают отображения со значениями переменной x1 и х2, все остальные — в зону неопределенности.

Лингвистические оценки (значения переменной X) наделяются весами (коэффициента-

ми уверенности). При этом шкала весов должна быть настраиваемой. Настройки должен осу-

ществлять сам исследователь. Фиксируются лишь диапазоны для каждой из переменных зо-

ны неопределенности: 0, ..., 1. Вполне понятно, что коэффициент „1“ соответствует значению

„ДА“, а „0“ — „НЕТ“. Далее, используя интенсивность каждого правила и соответствующий

весовой коэффициент, можно получить усредненную картину по всем исследуемым объек-

там. Исследователь может интуитивно установить пороговое значение, которое должен пре-

высить полученный результат, для того чтобы считаться положительным и чтобы исследова-

телю начать поиски объяснения сочетаемости, используя собственные знания и опыт. Если

поиски увенчаются успехом, то будет получено очередное правило, которое в дальнейшем

станет составляющей фильтра.

Учитывая вышеизложенное, можно считать, что имеется качественная шкала рассмат-

риваемого показателя X, подобно [6]. Эта шкала может стать количественной при задании

весовых коэффициентов. Поскольку у нас под объектом понимается сочетаемость двух струк-

турных составляющих, можно сопоставить одной из альтернатив выбор (предпочтение) кон-

кретного объекта. Полученные результаты могут быть сведены в таблицу, где на пересечении

строки и столбца можно поставить либо 1, либо 0, что будет означать наличие или отсутствие

оценки xi (табл. 2).

Таблица 2

Оценки сочетаемости

Переменная
x1 x3 x3 x4 x5 Итого

Comp1

Comp2

… Compj

… Compm

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5

8 И. Е. Воронина

Оценки сочетаемости. Итоговое значение для каждого столбца будет представлять со-

бой суммарный вес каждого правила, а выделенная итоговая строка представляет результаты

распределения по шкале X.

Если обозначить через q(xi) значение весового коэффициента для переменной xi, а количество объектов, для которых было определено значение переменной xi как N(xi), то каждый элемент строки „итого“ будет содержать величину

∑SComp j = k q (χi ) N ( j) (χi ) , i=1

(1)

где k — количество переменных, участвующих в эмпирическом обследовании (в данном слу-

чае k = 5).

Строго говоря, существует лишь один случай, когда имеется полная и однозначная

определенность: это те ситуации, когда значение x есть „ДА“, т.е. речь идет о x1. При этом можно вынести точный вердикт о сочетаемости структурных единиц. Однако такой случай

очень редок, поскольку работа происходит в условиях изучения объекта, эволюционирования

модели, когда полная формализация правил образования объекта (модели) еще не прошла.

Заметим, что предполагается

∑ q ( xi ) = 1 .

(2)

xi∈X

Введем некоторые обозначения. Sel(Compj) — это множество, состоящее только из тех

переменных xi, которые были задействованы в эмпирическом обследовании для компонента

Compj:

k
( ) ∪Sel Comp j ⊂ X = xi .

(3)

i=1

Напомним, что N(e) — это общее количество правил универсального контекста, т.е.

практически это количество исследованных объектов уровня n. При проведении исследова-

ния на сочетаемость представляется разумным фиксировать один из компонентов (тот, в

отношении которого надо принять решение о его сочетаемости или несочетаемости с какими-

либо другими компонентами). Обозначим его как Compfixed. Можно сказать, что изучение поведения Compfixed является целью исследования. В таком случае общее количество правил
вида Compfixed → Compj, j ∈ 1, …, m (m — количество компонентов, которые проверяются на сочетаемость с Compfixed), совпадет с N(e). Сюда войдут правила и с отрицательным заключением (в случае положительного заключения ответ однозначен и дальнейшие действия теряют

смысл). Заключение „НЕТ“ не приводит к прекращению процесса исследования и отбрасыва-

нию Compj как возможного претендента на сочетаемость, поскольку данное заключение выносится в отношении объекта более высокого уровня (универсального контекста). Количе-

ство правил, когда Compfixed с той или иной долей уверенности демонстрировал тип поведе-
ния Compj, есть ∑ N ( j) ( xi ) . Тогда суммарная интенсивность правил для отдельного
( )Sel Comp j

компонента Compj есть

( ) ∑IΣ Compfixed → Comp j =

N ( j) ( xi )

( )Sel Comp j

N (e),

(4)

суммарная интенсивность состоит из интенсивностей правил

Compfixed ⎯⎯xi → Compj,

причем каждая переменная xi имеет свой вес q ( xi ) .

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5

Количественные оценки при моделировании языковой системы

9

Назовем взвешенной интенсивностью правила с переменной xi произведение интенсивности и весового коэффициента данного правила:

IWi

= N ( xi )

N

(e)

−

q

(

xi

)

=

I

⎛ ⎜

Compfixed

xi
→

Comp

j

⎞ ⎟

−

q

(

xi

)

,

∀

i

∈

1,

...,

k,

∀

j

∈

1,

…,

m,

⎝⎠

тогда суммарная взвешенная интенсивность будет следующей:

∑ N ( j) ( xi )q ( xi )

∑I∑ W = IWi i

N

(e)

=

(Sel Comp

j

)
N

(e)

= S N (e).

(5)

Исследователь сам может установить пороговое значение, сравнение с которым позволит

отсеять часть претендентов на сочетаемость, оставив материал для размышления и изучения.

Принятие решения будет заключаться в формулировке правила сочетаемости (фильтра).

Но и отвергнутый материал может быть исследован. Визуализация распределения по

значимости каждого правила, т.е. взвешенных интенсивностей IWi , позволит получить картину, которая может косвенно быть полезна при принятии решения.

Для оценивания на основе вычислительного эксперимента был создан программный ин-

струментарий, позволяющий:

— создавать персональный отчет для каждого исследователя, в котором накапливаются

экспертные оценки (веса) рассматриваемых сочетаний слов;

— настраивать весовые коэффициенты, приписываемые элементам качественной шкалы;

— просматривать, добавлять, удалять оценки для соответствующих словосочетаний;

— на основе полученных результатов для списка заданных словосочетаний рассматривать

его как набор альтернатив и оценивать указанный выше критерий для каждого из словосоче-

таний, что устанавливает транзитивные отношения между значениями критерия для каждого

словосочетания из списка.

В качестве примера вычислительного эксперимента можно привести обработку слово-

сочетаний со словом „свобода“. Источником информации послужил „Морфемно-морфоноло-

гический словарь языка А. С. Пушкина“ [7], цель: выбрать наиболее подходящие словосоче-

тания исходя из экспертных оценок.

Указав часть речи, авторы получили список подходящих слов для изучения сочетаемо-

сти с исходным словом (в данном случае — список прилагательных). После проведения

экспертизы, задания весовых коэффициентов, порогового значения получены следующие

результаты для неформализованной сочетаемости (табл. 3). Принятие решения основано

исключительно на субъективных экспертных оценках при полном отсутствии правил форми-

рования словосочетаний.

Таблица 3 Результаты обработки с пороговым значением 2,5

Критерий

Compfixed

Compj

4

СВОБОДА

ЖЕЛАННЫЙ

3,85 СВОБОДА БЕСКОРЫСТНЫЙ

3,7

СВОБОДА

БЕЗЗАКОННЫЙ

3,7

СВОБОДА

НЕВЫМЫШЛЕННЫЙ

3,65 СВОБОДА НЕСОМНЕННЫЙ

3,6

СВОБОДА

КРАЕУГОЛЬНЫЙ

3,5

СВОБОДА

ЗАМЕШАННЫЙ

3,5

СВОБОДА

МЕРЗКИЙ

3,5

СВОБОДА

ОПЫТНЫЙ

2,65 СВОБОДА ЗАВЕТНЫЙ

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5

10 И. Е. Воронина

Продолжение таблицы 3

Критерий

Compfixed

Compj

2,5

СВОБОДА

ЗАСЛУЖЕННЫЙ

2,5

СВОБОДА

ДОЛГОВЕЧНЫЙ

2,5

СВОБОДА

НЕМИНУЕМЫЙ

2,5

СВОБОДА

ПРОНЗИТЕЛЬНЫЙ

2,5

СВОБОДА

НЕОБЪЯТНЫЙ

Представленный пример иллюстрирует подход к отбору исследовательского материала для того, чтобы попытаться сформулировать правила сочетаемости. И если в случае сочетаемости слов важность экспертных оценок не так очевидна, то при изучении сочетаемости морфем в словообразовательных процессах [8] значимость экспертизы весьма понятна.
Следует заметить, что не требуется затрат на сбор и обобщение знаний специалистов: программный инструментарий ориентирован на отдельного эксперта и помогает найти необходимое решение, предоставляющим возможность оценивания достоверности по апостериорным данным. Эту оценку можно использовать в качестве априорных данных для дальнейших экспертиз при создании языковых фильтров.

СПИСОК ЛИТЕРАТУРЫ

1. Пиотровский Р. Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб: Изд-во РГПУ, 1999. 256 с.

2. Пиотровский Р. Г. Инженерная лингвистика и теория языка. Л.: Наука, 1979. 112 с.

3. Воронина И. Е. Компьютерное моделирование лингвистических объектов. Воронеж: Изд.-полиграф. центр Воронежского гос. ун-та, 2007. 177 с.

4. Воронина И. Е. Актуальность моделирования лингвистической среды // Мат. Междунар. науч. конф. „Проблемы компьютерной лингвистики – 2009“. Воронеж: Изд.-полигр. центр Воронежского гос. ун-та, 2009.

5. Чесноков С. В. Детерминационный анализ социально-экономических данных. М.: Наука, 1982. 168 с.

6. Жаке-Лагрез Э. Применение размытых отношений при оценке предпочтительности распределенных величин // Статистические модели и многокритериальные задачи принятия решений. М.: Статистика, 1979. С. 168—183.

7. Кретов А. А., Матыцина Л. Н. Морфемно-морфонологический словарь языка А. С. Пушкина: ок. 23 000 слов. Воронеж: Центрально-Черноземное книжное изд-во, 1999. 208 с.

8. Воронина И. Е. Использование программных средств моделирования словообразовательных процессов в научно-исследовательской и педагогической практике // Проблемы компьютерной лингвистики: сб. науч. тр. Воронеж: Изд.-полиграф. центр Воронежского гос. ун-та, 2008. Вып. 3. С. 42—62.

Ирина Евгеньевна Воронина

Сведения об авторе — канд. техн. наук; Воронежский государственный университет, кафедра
программного обеспечения и администрирования информационных систем; E-mail: irina.voronina@gmail.com

Рекомендована кафедрой программного обеспечения и администрирования информационных систем

Поступила в редакцию 18.02.11 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2011. Т. 54, № 5