СТАТИСТИЧЕСКИЙ МЕТОД ИЗВЛЕЧЕНИЯ ТЕРМИНОВ ИЗ КИТАЙСКИХ ТЕКСТОВ БЕЗ СЕГМЕНТАЦИИ ФРАЗ
Аннотация:
Работа посвящена проблемеавтоматического извлечения знаний из естественно-языковых текстов (textmining). Одной из первоочередных задач в рамках данной проблемы является формирование тезауруса предметной области. Существуют достаточно апробированные статистические методы извлечения терминов для алфавитных языков, например, латентный семантический анализ. Применение данных методов для иероглифического письма сопряжено с проблемой, обусловленной отсутствием в таких языках пробелов между словами. Задача сегментации предложений на иероглифических языках обычно решается либо на основе словарей, либо статистическими методами, в частности, с использованием метода взаимной информации. Методы сегментации предложений, как и методы извлечения терминов по отдельности, не обладают 100%-ой точностью и полнотой, а их последовательное применение только увеличивает процент ошибок. Целью данной работы является повышение полноты и точности извлечения терминов предметной области из иероглифических текстов. Предлагаемый метод состоит в выявлении повторяющихся последовательностей длиной от двух до четырех символов в каждом предложении и соотнесения частот встречаемости этих последовательностей в целевой и контрастной коллекциях документов. В результате проведенного исследования было установлено, что простое ранжирование всех возможных последовательностей символов позволяет удовлетворительно выявлять только наиболее часто используемые термины. Фильтрация последовательностей символов по соотношению их частот в целевой и контрастной коллекциях позволила надежно извлекать часто используемые термины и удовлетворительно – термины с низкой частотой. В работе приведены результаты извлечения терминов предметной области «сетевые технологии» из текста на китайском языке, где в качестве контрастной коллекции использовался набор статей из газеты «Женьминь жибао», в результате чего получены вполне удовлетворительные результаты.
Ключевые слова:
Постоянный URL
Статьи в номере
- СУПЕРКОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ КРИТИЧЕСКИХ ЯВЛЕНИЙ В СЛОЖНЫХ СОЦИАЛЬНЫХ СИСТЕМАХ
- КОМПРЕССИЯ ПРЕДЕЛЬНО-КОРОТКИХ ИМПУЛЬСОВ СВЕТА И ГЕНЕРАЦИЯ ОДНОПОЛЯРНЫХ ИМПУЛЬСОВ ЗА СЧЕТ КОГЕРЕНТНОГО ВЗАИМОДЕЙСТВИЯ С РЕЗОНАНСНОЙ НЕЛИНЕЙНОЙ СРЕДОЙ
- ЛИДАРНЫЙ УЗЕЛ КОМБИНИРОВАННОГО СКАНИРОВАНИЯ
- СТРУЙНАЯ ПЕЧАТЬ ВЫСОКОРЕФРАКТИВНЫХ СТРУКТУР НА ОСНОВЕ ЗОЛЯ TiO2
- ВЛИЯНИЕ ВОДОРОДНОЙ ОБРАБОТКИ ОПТИЧЕСКОГО ВОЛОКНА НА ЭФФЕКТИВНОСТЬ ЗАПИСИ В НЕМ ЧИРПИРОВАННЫХ РЕШЕТОК БРЭГГА ИЗЛУЧЕНИЕМ KrF ЭКСИМЕРНОГО ЛАЗЕРА
- АЛГОРИТМ КОМПЕНСАЦИИ МУЛЬТИГАРМОНИЧЕСКИХ ВОЗМУЩЕНИЙ В ЛИНЕЙНЫХ СИСТЕМАХ С ПРОИЗВОЛЬНЫМ ЗАПАЗДЫВАНИЕМ: МЕТОД ВНУТРЕННЕЙ МОДЕЛИ
- ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА КЛАСТЕРОВ СЕРЕБРА, СФОРМИРОВАННЫХ МЕТОДОМ ИОННОГО ОБМЕНА В ФОТО-ТЕРМО-РЕФРАКТИВНОМ СТЕКЛЕ
- РАСПРЕДЕЛЕНИЕ ДИСЛОКАЦИЙ В КРИСТАЛЛАХ AlN ПРИ ВЫРАЩИВАНИИ НА ИСПАРЯЕМЫХ ПОДЛОЖКАХ SiC
- ПОЛУЧЕНИЕ ТОЛСТЫХ СЛОЕВ НИТРИДА ГАЛЛИЯ МЕТОДОМ МНОГОСТАДИЙНОГО РОСТА НА ПОДЛОЖКАХ С КОЛОННОЙ СТРУКТУРОЙ
- ОСОБЕННОСТИ ПРОВЕДЕНИЯ ИЗМЕРЕНИЙ В ЖИДКИХ СРЕДАХ МЕТОДОМ АТОМНО-СИЛОВОЙ МИКРОСКОПИИ
- ИСПОЛЬЗОВАНИЕ В СИСТЕМАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ GMM-МОДЕЛЕЙ ДЛЯ АДАПТАЦИИ АКУСТИЧЕСКИХ МОДЕЛЕЙ, ПОСТРОЕННЫХ НА ОСНОВЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
- НЕЧЕТКОЕ ОТОБРАЖЕНИЕ В СИСТЕМЕ СОНИФИКАЦИИ ДАННЫХ БЕСПРОВОДНОЙ СЕНСОРНОЙ СЕТИ
- АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ, ОБЕСПЕЧИВАЮЩАЯ СВОЙСТВО ПОВЕДЕНИЯ
- АВТОМАТИЗАЦИЯ ПОДБОРА ОПТИМАЛЬНОЙ ДИСЦИПЛИНЫ ОБСЛУЖИВАНИЯ ПРИ ПЕРЕДАЧЕ VОIP-ТРАФИКА
- ДИНАМИЧЕСКАЯ АВТОРИЗАЦИЯ НА ОСНОВЕ ИСТОРИИ НОВОСТНЫХ СООБЩЕНИЙ
- ОПРЕДЕЛЕНИЕ МИКРОГЕОМЕТРИИ ФУНКЦИОНАЛЬНОЙ ПОВЕРХНОСТИ ДЕТАЛИ, ОБЕСПЕЧИВАЮЩЕЙ ТРЕБУЕМЫЕ ПОКАЗАТЕЛИ АВИАЦИОННОГО ДАТЧИКА ВИБРАЦИИ
- МОДЕЛЬ ПРОГНОЗИРОВАНИЯ РАСХОДОВ ДЛЯ ПЛАНИРОВАНИЯ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ ВУЗА
- ИМИТАЦИОННАЯ МОДЕЛЬ ВИРТУАЛЬНОГО КАНАЛА
- МЕТОДИКА ОЦЕНКИ УРОВНЯ КАЧЕСТВА МЕХАНИЧЕСКИХ ИЗДЕЛИЙ В ПРОЦЕССЕ ИХ ПРОЕКТИРОВАНИЯ
- АНТИФУНГАЛЬНАЯ АКТИВНОСТЬ ZnO, SiO2, Au И Ag АКРИЛОВЫХ НАНОКОМПОЗИТОВ
- РЕЗЕРВИРОВАНИЕ ПЕРЕДАЧ ЧЕРЕЗ АГРЕГИРОВАННЫЕ КАНАЛЫ, РАЗДЕЛЯЕМЫЕ НА ГРУППЫ
- ВЛИЯНИЕ ТОПОЛОГИЧЕСКОЙ СТРУКТУРЫ НА ДИНАМИКУ ТЕМПОРАЛЬНОЙ СЕТИ
- ПРЕДСКАЗАНИЕ ПИКОВ ЭПИДЕМИЙ ГРИППА В САНКТ-ПЕТЕРБУРГЕ С ПОМОЩЬЮ ПОПУЛЯЦИОННЫХ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ