Специфика извлечения информации из текстов для построения онтологий слабоформализованных предметных областей
Аннотация
Для подготовки специалистов в слабоформализованных предметных областях целесообразно использовать формат электронного обучения. Мировой тенденцией в информационной поддержке формата e-learning является разработка онтологий изучаемых предметных областей. На примере материалов по историческому кораблестроению (ИК) выделе-ны проблемы, возникающие при обработке текстовых источников для построения онтологии: терминология претерпевает исторические изме-нения; толкования терминов в конкретных источниках могут расхо-диться с энциклопедическими определениями терминов; частота встре-чаемости отдельных терминов крайне низка. В этих условиях для извлечения информации из текста использовался семантико-синтаксический парсер SemSin в сочетании с семантическим классификатором, который позволяет выделять не только отдельные термины, но и все слова, относящиеся к данному классу. Использование семантического классификатора позволяет с большей эффективностью выделять классообразующие (в смысле онтологии) термины, устанав-ливать иерархию классов, выявлять названия свойств и их значения. Приведены примеры, подтверждающие эффективность этого подхода.