Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами
Аннотация:
Введение. В настоящее время интерпретируемость лингвистических моделей машинного обучения неудовлетворительна в связи с несовершенством научно-методического аппарата описания функционирования как отдельных элементов, так и моделей в целом. Одной из проблем, связанной со слабой интерпретируемостью, является низкая надежность функционирования нейронных сетей, обрабатывающих тексты естественного языка. Известно, что небольшие возмущения в текстовых данных влияют на устойчивость нейронных сетей. В работе представлен метод тестирования лингвистических моделей машинного обучения на наличие угрозы проведения атак уклонения. Метод. Метод включает в себя следующие генерации текстовых состязательных примеров: случайная модификация текста и сеть генерации модификаций. Случайная модификация текста произведена с помощью омоглифов — переупорядочивания текста, добавления невидимых символов и удаления символов случайным образом. Сеть генерации модификаций основана на генеративно-состязательной архитектуре нейронных сетей. Основные результаты. Проведенные эксперименты продемонстрировали результативность метода тестирования на основе сети генерации текстовых состязательных примеров. Преимущество разработанного метода заключается в возможности генерации более естественных и разнообразных состязательных примеров, которые обладают меньшими ограничениями, не требуется многократных запросов к тестируемой модели. Это может быть применимо в более сложных сценариях тестирования, где взаимодействие с моделью ограничено. Эксперименты показали, что разработанный метод позволил добиться лучшего баланса результативности и скрытности текстовых состязательных примеров (например, протестированы модели GigaChat и YaGPT). Обсуждение. Результаты работы показали необходимость проведения тестирования на наличие дефектов и уязвимостей, которые могут эксплуатировать злоумышленники с целью снижения качества функционирования лингвистических моделей. Это указывает на большой потенциал в вопросах обеспечения надежности моделей машинного обучения. Перспективным направлением являются проблемы восстановления уровня защищенности (конфиденциальности, доступности и целостности) лингвистических моделей машинного обучения.
Ключевые слова:
Постоянный URL
Статьи в номере
- Разработка адаптивной лазерной головки для компенсации погрешности положения перетяжки пучка во время лазерной обработки с использованием метода обнаружения пятна лазерного излучения
- Исследование изменения чувствительности волоконной брэгговской решетки к температуре и растяжению с помощью нанесения покрытий из легкоплавких металлов
- Исследование влияния наведенного периодического механического напряжения на величину связи поляризационных мод в двулучепреломляющем оптическом волокне
- Метод поиска функции Ляпунова для анализа устойчивости нелинейных систем с использованием генетического алгоритма
- Робастная компенсация возмущений для многоканальных линейных систем с неизмеримым вектором состояния и запаздыванием в канале управления
- Управление отслеживанием траектории для мобильных роботов с адаптивным коэффициентом усиления
- Переключение электрических свойств тонкопленочных мемристивных элементов на основе GeTe последовательностями сверхкоротких лазерных импульсов
- Спектральные и кинетические характеристики свернутых в виде свитков ультратонких нанопластин селенида кадмия
- Метод оптимизации параметров установки камеры для видеоконтроля зоны наблюдения произвольной формы
- Использование антропометрических точек для внесения ограничений в синтез трехмерной модели тела человека с помощью SMPL
- Новый эффективный адаптивный алгоритм шаблонного поиска для оценки движения
- Кластеризация в аналитике больших данных: системный обзор и сравнительный анализ (обзорная статья)
- Сегментация жестов слов на видео жестового языка
- Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков
- Планирование заданий в распределенной вычислительной системе на кристалле с минимизацией потребляемой мощности
- Система маршрутизации клиентов на основе их эмоционального состояния и возраста в системах обслуживания населения
- Последствия малоподвижного поведения для здоровья и выявление неопределенных моделей поведения у взрослых
- Доверительные липшицевы классификаторы: инструмент гарантированной надежности
- Среда визуальной разработки программ многомерных нечетких интервально-логических регуляторов
- Решение задачи пространственного вращения 3D-поверхностей и их отображения на плоскости
- Аналитическое и имитационное моделирование гибких сочленений для мехатронных и робототехнических систем
- Оценка влияния степени заполнения реакционного тигля железо-олово на процессы тепло- и массопереноса в присутствии электрического тока высокой плотности
- Измерение показателя преломления с помощью автоколлимационного гониометра