Например, Бобцов

Метод полуавтоматической классификации для данных с несбалансированными классами

Сборник тезисов
Конференция:XVIII Объединенная научная конференция «Интернет и современное общество» (IMS‑2015)
Раздел:Компьютерная лингвистика и вычислительные онтологии
Рубрика:Компьютерная лингвистика и вычислительные онтологии
Год:2015

Метод полуавтоматической классификации для данных с несбалансированными классами

УДК:80

Аннотация

Работа посвящена опыту применения полуавтоматического метода для снижения трудозатрат эксперта по настройке классификатора, основанного на ключевых словах. Метод построен на итеративной модели классификации на основе обучения с частичным привлечением учителя. Для оценки качества классификации была проведена ручная разметка корпуса в 620 документов. В рамках нашего эксперимента мы проверили эффективность использования нескольких видов параметров, таких, как лемм, биграмм, синтаксических связей и их комбинаций, а также сравнили показатели эффективности в зависимости от размера шага просмотра, т.е. количества документов, оцениваемых экспертом на каждой итерации. Наш эксперимент показал, что при использовании предлагаемого метода достаточно высокая полнота (0,91) может быть достигнута уже при просмотре 24% документов корпуса, что значительно снижает трудозатраты со стороны эксперта.

Материалы конференций