Метод полуавтоматической классификации для данных с несбалансированными классами
Аннотация
Работа посвящена опыту применения полуавтоматического метода для снижения трудозатрат эксперта по настройке классификатора, основанного на ключевых словах. Метод построен на итеративной модели классификации на основе обучения с частичным привлечением учителя. Для оценки качества классификации была проведена ручная разметка корпуса в 620 документов. В рамках нашего эксперимента мы проверили эффективность использования нескольких видов параметров, таких, как лемм, биграмм, синтаксических связей и их комбинаций, а также сравнили показатели эффективности в зависимости от размера шага просмотра, т.е. количества документов, оцениваемых экспертом на каждой итерации. Наш эксперимент показал, что при использовании предлагаемого метода достаточно высокая полнота (0,91) может быть достигнута уже при просмотре 24% документов корпуса, что значительно снижает трудозатраты со стороны эксперта.