Например, Бобцов

О состоятельности порядковых статистик частотных словарей

Сборник тезисов
Конференция:XX Объединенная научная конференция «Интернет и современное общество» (IMS‑2017)
Раздел:КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ВЫЧИСЛИТЕЛЬНЫЕ ОНТОЛОГИИ. Выпуск 1
Рубрика:КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ВЫЧИСЛИТЕЛЬНЫЕ ОНТОЛОГИИ
Год:2017

О состоятельности порядковых статистик частотных словарей

УДК:

Аннотация

В статье рассмотрены некоторые порядковые статистики частотных словарей, представленных в виде ранговых распределений. Эти статистики анализируются с точки зрения их состоятельности, то есть проверяется, будут ли эмпирические характеристики по мере увеличения объема выборки устремляться к предельным теоретическим величинам. Тест на состоятельность порядковых статистик был осуществлен на основе корпуса «Один речевой день». Частотный словарь этого корпуса был представлен в виде динамической структуры, состоящей из 10 порций по 10 тыс. словоупотреблений каждая. Порции последовательно присоединялись друг к другу в случайном порядке. На каждом шаге строилось ранговое распределение. В результате проведенного исследования было показано, что анализируемые статистики действительно являются состоятельными. В статье также приводятся доли соответствующих порядковых статистик по семи разным частотным словарям и показаны "порядковые" профили для каждого из этих словарей. На материале разных, но однородных по составу корпусов установлено, что эти статистики обладают высоким стилеразличающим потенциалом. Это свойство порядковых статистик может использоваться для сравнения частотных словарей разной тематики, жанра и объема. 

Материалы конференций