Анализ настроений арабских твитов с использованием контролируемого машинного обучения
Аннотация:
Растущий объем пользовательского контента на платформах социальных сетей требует эффективных инструментов для понимания общественных настроений. В работе представлен подход к анализу настроений арабских твитов с использованием контролируемых методов машинного обучения. Исследована производительность трех популярных алгоритмов — опорных векторных машин (Support Vector Machines, SVM), наивного байесовского алгоритма (Naive Bayes, NB) и логистической регрессии (Logistic Regression, LR) — на двух отдельных корпусах: арабском корпусе текстов настроений (Arabic Sentiment Text Corpus, ASTC) и корпусе арабских твитов. Подход содержал четыре теста, оценивающих влияние характеристик корпуса: метода предварительной обработки, метода взвешивания и использования N-грамм на точность классификации. Первый тест позволил установить, что выбор корпуса значительно влияет на производительность модели, при этом SVM показал высокую точность на структурированном ASTC, в то время как NB лучше работает с неформальными арабскими твитами. Во втором тесте предварительная обработка, включая удаление знаков препинания и стоп-слов, привела к заметному улучшению точности классификации для арабских твитов, но оказала минимальное или даже отрицательное влияние на ASTC. Третий тест показал, что включение N-грамм дало незначительное улучшения для NB и LR в более структурированных текстах, в то время как его влияние на твиты было незначительным. Четвертый тест позволил сравнить различные методы взвешивания, показав, что SVM выиграл по сравнению с методом взвешивания TF-IDF, в то время как производительность NB оставалась стабильной независимо от подхода к взвешиванию. Полученные результаты подчеркивают важность адаптации стратегий предварительной обработки и извлечения признаков к конкретным характеристикам набора данных, что в итоге повышает точность анализа настроений в контекстах арабского языка.
Ключевые слова:
Постоянный URL
Статьи в номере
- Разработка и изготовление коллимирующей волоконной сферической микролинзы для системы вывода излучения из радиофотонных компонент в оптическое волокно
- От триасового периода к современности: спектроскопия комбинационного рассеяния света для дифференциации ископаемых смол различного возраста
- Оптимизация геометрии двумерного фотоннокристаллического волновода для телекоммуникационных применений и сенсорики
- Разработка и исследование способов подавления аддитивных шумов в волоконнооптических интерферометрических датчиках
- Методика компенсации постоянной составляющей шумов рефлектограммы волоконно-оптической линии связи в условиях недостаточного динамического диапазона оптического рефлектометра обратного рассеяния во временной области
- Исследование метода измерения веса подвижных объектов на основе квазираспределенных волоконных решеток Брэгга с температурной компенсацией
- Современные оптические методы бесконтактных геометрических измерений и восстановления 3D-формы поверхности объектов: обзор
- Спектрально-люминесцентные свойства серебряных кластеров Ag1–5 в ионообменном слое силикатного стекла
- Формирование толстого слоя ε-Ga2O3 на подслое GaN с V-дефектами на границе раздела
- Модель обеспечения непрерывности безопасного функционирования системы прослеживаемости качества продукции в условиях неустойчивой коммуникации
- Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах
- Обнаружение дефектов твердых поверхностей при ограниченном объеме данных на основе SSD-детектора и сиамских сетей
- Параметрический корпус русского языка RuParam
- Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике
- Повышение безопасности Kubernetes с помощью машинного обучения: проактивный подход к обнаружению аномалий
- Многозадачное обучение на основе префиксов для устойчивого текстового поиска
- Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов
- Язык спецификации взаимодействия автоматных объектов
- Особенности организации игрового взаимодействия асимметричных агентов с использованием графовых нейронных сетей
- Разработка и моделирование технологической схемы установки паровой конверсии метана с кислородным сжиганием топлива и улавливанием углекислого газа
- Исследование стабильности гибридной МОП-мемристорной памяти с использованием модифицированного метода оптимизации роя частиц
- Анализ уязвимости нейросетевых моделей YOLO к атаке Fast Sign Gradient Method