ЗАДАЧА НОРМАЛИЗАЦИЙ СЛОВ КАЗАХСКОГО ЯЗЫКА
Аннотация:
Предмет исследования. Рассмотрены модели и существующие алгоритмы нормализации слов естественных языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути синтеза нормальной формы слова для казахского языка. Цель. Создание полной классификации системы окончаний для казахского языка. Разработка алгоритма нормализации слов на основе предложенного подхода классификации окончаний и суффиксов. Методология. Проведен анализ словообразования с помощью окончаний для всех частей речи казахского языка, на основе выполненной работы представлена классификация окончаний и суффиксов. Рассмотрены возможные варианты размещений типов окончаний и суффиксов. Общее количество возможных суффиксов составляет 26 526 единиц, окончаний – 3 565 единиц. Все приведенные типы являются лексически и семантически допустимыми, но некоторые из них не применяются. В базу аффиксов добавлены только те, которые наиболее часто применяются. С помощью множеств представлено, в каком порядке к основе добавляется аффиксы. Это нужно для того, чтобы правильно выделить основу. В работе не рассматриваются словообразующие суффиксы, так как они меняют основу слова и контекст значения. В основном к существительным добавляются словообразующие суффиксы. Основные результаты. Разработана полная система классификации окончаний и суффиксов казахского языка. Построены детерминированные конечные автоматы для различных частей речи с использованием всевозможных вариантов добавления суффиксов и окончаний с учетом морфологических и лексических свойств грамматики казахского языка. Разработан алгоритм стеминга с использованием разработанной системы классификации окончаний казахского языка. Реализована система нормализации, доказывающая работоспособность разработанного алгоритма без словаря. Алгоритм протестирован на корпусе казахского языка. В заданном корпусе изначально были убраны знаки пунктуации и стоп-слова. Практическая значимость. Результаты работы могут найти применение при анализе текста, нормализации (лемматизации) текста, а также в информационно-поисковых системах, в машинном переводе казахского языка и других прикладных задачах.
Ключевые слова:
Постоянный URL
Статьи в номере
- АННОТАЦИЯ НОМЕРА
- ТЕХНОЛОГИЯ БЛОКЧЕЙН В СЕТЯХ 5G
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ЛАЗЕРНОГО НАГРЕВА ТИТАНСОДЕРЖАЩЕГО ОПТОТЕРМИЧЕСКОГО ВОЛОКОННОГО КОНВЕРТЕРА И СТЕНКИ ВЕНЫ В ПРОЦЕССЕ ЭНДОВАЗАЛЬНОЙ ЛАЗЕРНОЙ КОАГУЛЯЦИИ
- ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ВЛИЯНИЯ ОПТИЧЕСКОЙ МОЩНОСТИ НА ФОРМИРОВАНИЕ СТРУКТУРЫ ВОЛОКОННО-ОПТИЧЕСКОГО РАССЕИВАТЕЛЯ, ПОЛУЧЕННОГО ПУТЕМ ПЛАВЛЕНИЯ СЕРДЦЕВИНЫ СВЕТОВОДА
- ИССЛЕДОВАНИЕ МЕТОДОВ СОЗДАНИЯ ГОРЯЧЕЙ ПРОВОЛОКИ ВОЛОКОННО-ОПТИЧЕСКОГО ТЕПЛОВОГО АНЕМОМЕТРА
- ИССЛЕДОВАНИЕ ВЛИЯНИЯ ВНЕШНЕГО ОТНОСИТЕЛЬНОГО ДАВЛЕНИЯ НА СДВИГ ФАЗЫ В ИНТЕРФЕРОМЕТРЕ САНЬЯКА
- ИССЛЕДОВАНИЕ АБСОРЦИОННЫХ ХАРАКТЕРИСТИК СЕРЕБРЯНЫХ ИОНООБМЕННЫХ СЛОЕВ В ХЛОРИДНОМ ФОТО-ТЕРМО-РЕФРАКТИВНОМ СТЕКЛЕ(на англ. яз.)
- СПЕКТРАЛЬНО-ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА ЭРБИЯ В БРОМИДНО-ФТОРИДНЫХ ФОТО-ТЕРМО-РЕФРАКТИВНЫХ СТЕКЛАХ
- МЕТОД АВТОМАТИЧЕСКОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК И РАСПОЗНАВАНИЯ ЖЕСТОВ В ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСАХ
- СОВРЕМЕННЫЕ ПОДХОДЫ К МУЛЬТИКЛАССОВОЙ КЛАССИФИКАЦИИ ИНТЕНТОВ НА ОСНОВЕ ПРЕДОБУЧЕННЫХ ТРАНСФОРМЕРОВ(на англ. яз.)
- ЭФФЕКТИВНАЯ РЕАЛИЗАЦИЯ СОВРЕМЕННОЙ КРИПТОСИСТЕМЫ МАК-ЭЛИСА, ПОСТРОЕННОЙ НА ОБОБЩЕННЫХ (L, G)-КОДАХ
- АНАЛИЗ ДЕФЕКТОВ ПОВЕРХНОСТИ ИЗДЕЛИЯ ПРИ 3D-ПЕЧАТИ ПО ИХ ИЗОБРАЖЕНИЯМ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
- МОДЕЛЬ ИНСТРУМЕНТАЛЬНОГО СРЕДСТВА АВТОМАТИЗИРОВАННОГО СИНТЕЗА АППАРАТНЫХ УСКОРИТЕЛЕЙ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ПРОГРАММИРУЕМЫХ ЛОГИЧЕСКИХ ИНТЕГРАЛЬНЫХ СХЕМ
- ОРГАНИЗАЦИЯ РЕЗЕРВИРОВАНИЯ ПАКЕТОВ ПРИ МНОГОПУТЕВЫХ ПЕРЕДАЧАХ РЕАЛЬНОГО ВРЕМЕНИ
- ПРИМЕНЕНИЕ МОДУЛЬНОГО ПОДХОДА ПРИ РАЗРАБОТКЕ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ ОБОРУДОВАНИЯ С ЧИСЛОВЫМ ПРОГРАММНЫМ УПРАВЛЕНИЕМ
- ПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ ДИФФЕРЕНЦИАЛЬНО-РАЗНОСТНЫХ МОДЕЛЕЙ ТЕПЛОПЕРЕНОСА В ОДНОМЕРНЫХ ТЕЛАХ НА ОСНОВЕ АЛГОРИТМОВ ФИЛЬТРА КАЛМАНА
- ВЫБОР КОМПОЗИЦИОННОГО МАТЕРИАЛА В ДАТЧИКЕ ИНДУКЦИОННОГО ЛАГА
- МОДЕЛИРОВАНИЕ ИСПАРЕНИЯ СЖИЖЕННОГО ПРИРОДНОГО ГАЗА В МОБИЛЬНЫХ РЕЗЕРВУАРАХ
- МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ИСПАРЕНИЯ СЖИЖЕННОГО ПРИРОДНОГО ГАЗА И АНАЛИЗ ВЛИЯНИЯ ИСХОДНОГО СОСТАВА НА СКОРОСТЬ ИСПАРЕНИЯ
- БЕССЕТОЧНОЕ МОДЕЛИРОВАНИЕ УПРУГИХ ДЕФОРМАЦИЙ ПОЛИМЕРНЫХ КОМПОЗИТНЫХ МАТЕРИАЛОВ ПРИ ИХ СТАТИЧЕСКОМ НАГРУЖЕНИИ
- ПОВЫШЕНИЕ ТОЧНОСТИ ПРОГРАММНО-АППАРАТНОГО КОМПЛЕКСА ДЛЯ ИЗМЕРЕНИЯ И РЕГИСТРАЦИИ МЫШЕЧНОЙ АКТИВНОСТИ(на англ. яз.)