Метод полуавтоматической классификации для данных с несбалансированными классами

Сборник тезисов

Конференция:XVIII Объединенная научная конференция «Интернет и современное общество» (IMS‑2015)

Раздел:Компьютерная лингвистика и вычислительные онтологии

Рубрика:Компьютерная лингвистика и вычислительные онтологии

Год:2015

Метод полуавтоматической классификации для данных с несбалансированными классами

Адаскина Юлия Владимировна, Попов Андрей Михайлович, Реброва Полина Владимировна

УДК:80

Скачать PDF

Аннотация

Работа посвящена опыту применения полуавтоматического метода для снижения трудозатрат эксперта по настройке классификатора, основанного на ключевых словах. Метод построен на итеративной модели классификации на основе обучения с частичным привлечением учителя. Для оценки качества классификации была проведена ручная разметка корпуса в 620 документов. В рамках нашего эксперимента мы проверили эффективность использования нескольких видов параметров, таких, как лемм, биграмм, синтаксических связей и их комбинаций, а также сравнили показатели эффективности в зависимости от размера шага просмотра, т.е. количества документов, оцениваемых экспертом на каждой итерации. Наш эксперимент показал, что при использовании предлагаемого метода достаточно высокая полнота (0,91) может быть достигнута уже при просмотре 24% документов корпуса, что значительно снижает трудозатраты со стороны эксперта.

Метод полуавтоматической классификации для данных с несбалансированными классами

Метод полуавтоматической классификации для данных с несбалансированными классами

Аннотация

Постоянный URL

Материалы конференций

Метод полуавтоматической классификации для данных с несбалансированными классами

Метод полуавтоматической классификации для данных с несбалансированными классами

Аннотация

Постоянный URL

Поделиться

Материалы конференций