Определение семантической близости текстов с использованием инструмента DKPro Similarity
Аннотация
В данной работе рассматривается проблема оценки семантической близости текстов на русском языке. Мы описываем преимущества использования открытой компьютерной платформы DKPro Similarity для решения этой проблемы, сосредоточив внимание на строковых метриках оценки близости текстов. Эксперименты проводятся на материале тестовой выборки, включающей сходные фрагменты художественных, научных и новостных текстов. Мы используем несколько представленных в платформе DKPro Similarity метрик и передаем полученные значения алгоритмам машинного обучения в качестве признаков. Результаты работы показывают, что простые строковые метрики позволяют достичь высоких результатов при определении отнесенности текстов к одной группе с помощью линейных моделей. В исследовании также предлагается метод оценки релевантности метрик для конкретных задач.