АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНСТРУМЕНТАЛЬНОГО КОМПЛЕКСА ДЛЯ ФОРМИРОВАНИЯ ЗНАНИЙ О ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССАХ

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ
УДК 681.3.06
В. И. ПИМЕНОВ
АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНСТРУМЕНТАЛЬНОГО КОМПЛЕКСА ДЛЯ ФОРМИРОВАНИЯ ЗНАНИЙ О ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССАХ
Рассматриваются особенности представления в компьютерных обучающих системах базы знаний, описывающей технологические процессы. Автоматизация проектирования динамической модели знаний интеллектуальных обучающих систем выполняется в рамках специального инструментального комплекса. Решающие правила, построенные в процессе обучения распознаванию образов, используются для представления динамических знаний.
Ключевые слова: технологический процесс, компьютерная обучающая система, распознавание образов, решающее правило, база знаний.
Введение. В специальной литературе технологический процесс (ТП) представляется как текстовое описание (вербальная модель), снабженное иллюстрациями, формулами, таблицами. Не исследованные до конца технологии и процессы, описывающие создание новых материалов, сопровождаются также наличием большого количества экспериментальных данных.
Этапность выполнения технологических операций, выделение классов готовой продукции, наличие диапазонов значений технологических параметров, обеспечивающих получение готового продукта требуемого качества, приводят к построению дискретных моделей знаний о технологических процессах. Многие исходные компоненты являются результатами выполнения других технологических процессов. Поэтому для описания понятий и их свойств вопросы формализации исходных компонентов и готового продукта должны решаться одинаково.
При реализации обучающей системы в гипермедиа-технологиях в основе ее логической схемы, в первую очередь, лежит модель предметной области, которая чаще всего строится в виде графа логических связей учебных элементов, представляющих подраздел дисциплины на минимальном уровне [1, 2]. Основная проблема при преобразовании первичного материала в систему гипермедиа-компонентов — выделение информационных блоков и установление логических связей-гиперссылок между сотнями, а иногда тысячами учебных элементов.
Модель знаний о ТП представляется как совокупность статической и динамической составляющих. Статическая модель отражает множество классов Ω: возможные наименования продукции, сортность, уровни потребительских и эксплуатационных показателей качества. Описание технологического процесса массивом „объект — атрибуты — значения“ позволяет представить задачу проектирования динамической модели знаний как обучение распознаванию образов (ОРО) [3], когда из баз данных извлекается система решающих правил (РП), описывающих порядок изготовления продукции заданных классов. Система РП графически представляется моделью поля знаний, на котором распределяются информационные блоки и устанавливаются связи-гиперссылки. Значения образующих априорный словарь XA свойств,
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2009. Т. 52, № 1

4 В. И. Пименов
характеризующих сырье, материалы, детали, изделия, и достаточное число прецедентов позволяют выделить информативное подмножество признаков XР для разделения ТП по выпуску продукции различных классов. Признаки-свойства, не вошедшие в рабочий словарь XР, определяют в исходных текстах базовые понятия, общие места или дополнительную информацию.
Состав инструментального комплекса. Инструментальный комплекс для автоматизации проектирования динамической модели знаний интеллектуальных обучающих систем технологической направленности основан на различных методах и алгоритмах. Исходными данными для формирования РП являются описания XA производимых объектов с указанием их принадлежности соответствующему классу. Список признаков, входящих в априорный словарь, специалист формирует исходя из заданного алфавита классов объектов, в частном случае — при составлении онтологии знаний об описываемых ТП.
Получение априорной информации для обучения реализуется одним из следующих способов:
— выборкой из базы данных результатов наблюдения за выпуском готовой продукции; — заданием значений признаков (или диапазонов значений признаков) объектов обучающей выборки (ОВ); — заданием функций принадлежности нечетких классов. Если отношение размерности исходного пространства признаков (NА) к объему (п) обучающей выборки невелико и априорный словарь является недостаточным для разделения объектов различных классов, то возникает необходимость применения последовательного критерия отношения вероятностей (ПКОВ), позволяющего накапливать информацию о значениях признаков объекта на этапе логического вывода. В режиме выделения класса с новыми потребительскими свойствами на основе базы знаний (БЗ) решается задача альтернативного распознавания объектов определенного класса, представляющего интерес, и остальных объектов, относящихся к фоновому классу [4]. При ограниченном обучающем материале основное внимание при создании комплекса уделяется алгоритмам ОРО, обеспечивающим высокую экстраполирующую силу найденных правил. Критерием выбора класса решающего правила, осуществляемого совместно с поиском рабочего словаря XР, является гарантированная оценка риска [5]
Pош = νmin(K, XР ) + ε(n, η, M, h), где ν — эмпирический риск (частота ошибок распознавания на обучающей выборке); ε — гарантированное отклонение степени среднего риска от эмпирического; емкость h = h(K, XР) является мерой разнообразия класса РП K для фиксированной размерности признакового пространства. Характер зависимости величины Pош от объема выборки n, доверительной вероятности η, количества классов продукции M и емкости h позволяет при недостаточности ОВ осуществить выбор класса РП K* и рабочего словаря XР. Выбранный по критерию минимума Pош класс K* является предпочтительным с точки зрения обеспечения экстраполирующей силы системы РП.
Среди простейших классов, обладающих минимальной емкостью, рассматриваются логические, линейно-логические, линейные и кусочно-линейные РП. Решающие правила, образующие в пространстве признаков нелинейные разделяющие гиперповерхности, при оценке их емкости могут использовать кусочно-линейную аппроксимацию.
Нарушение гипотезы компактности, когда объекты различных классов „перемешаны“ в признаковом пространстве, приводит к тому, что дискриминантные правила не дают возможности выполнить распознавание или, в лучшем случае, выявляют только фрагменты логических закономерностей в данных [6]. Во избежание подобной ситуации следует перед обучением соответствующие „трудные“ классы разбить на подклассы, используя методы таксономического анализа.
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2009. Т. 52, № 1

Алгоритмическое обеспечение инструментального комплекса для формирования знаний о ТП 5
Поиск рабочего словаря и интервальное кодирование признаков (для логических РП) осуществляются на основе вычисления критерия информативности, выбор которого зависит от класса используемых РП. Для логических РП и для РП, построенных в пространстве непрерывных признаков, применяются свои группы критериев [7].
В целях уменьшения избыточности кода и объема пространства признаков
NP
∏V = t j , j =1, NP , j =1
можно осуществить устранение „дублирующих“ порогов после дискретизации отдельных признаков на определенное число градаций tj, что позволяет обеспечить более глубокий минимум Pош.
Таким образом, при формировании алгоритмического обеспечения распознающей БЗ в случае ограниченности исходных данных прежде всего решается комбинаторная задача выбора класса РП и системы описания объектов, а затем с учетом типа входящих в описание признаков непосредственно выполняется построение решающего правила. Тем самым осуществляется разбиение единого процесса обучения и учитывается структура взаимосвязи его основных этапов.
Используемые в инструментальном комплексе программы кодирования признаков реализуют алгоритм позиционного порогового кодирования [8] и алгоритм минимального числа порогов МЧП [9].
Программы формирования рабочего словаря выбирают минимальное или квазиминимальное число признаков NР из исходного априорного словаря XA при информативности IР не ниже исходной IA. После МЧП-дискретизации задачу выбора рабочего словаря можно свести к схеме аддитивного алгоритма ветвей и границ [9]. Рабочий словарь, близкий к оптимальному, может быть найден, если параметр алгоритма 0