Например, Бобцов

Обнаружение неконвенциональных пиксельных атак посредством статистического анализа распределения оценок аномальности

Аннотация:

Введение. Распространение искусственного интеллекта и методов машинного обучения сопровождается увеличением количества уязвимостей и угроз в системах, реализующих подобные технологии. Значительную опасность для таких систем представляют атаки на основе вредоносных возмущений. Для защиты от них разработаны различные решения, к числу которых относятся подход к обнаружению неконвенциональной пиксельной атаки на нейронные сети обработки изображений методами статистического анализа и алгоритм обнаружения таких атак посредством отсечения по порогу. Недостатком алгоритма отсечения по порогу является необходимость определения значения параметра (порога отсечения) для обнаружения различных атак и учета специфики наборов данных, что затрудняет его применение на практике. В работе изложен метод обнаружения неконвенциональных пиксельных атак на нейронные сети обработки изображений посредством статистического анализа распределения оценок аномальности. Метод. Для выявления искажения, свойственного неконвенциональным пиксельным атакам, определяются отклонения от ближайших соседей и расстояния Махаланобиса. По их значениям вычисляется матрица оценок аномальности пикселов изображения. Предполагается, что статистическое распределение оценок аномальности пикселов различно для атакованных и неатакованных изображений и для возмущений, встраиваемых при различных атаках. В этом случае атаки могут быть обнаружены посредством анализа статистических характеристик распределения оценок аномальности. Полученные характеристики используются в качестве предикторов для обучения моделей обнаружения аномалий и классификации изображений. Основные результаты. Апробация метода выполнена на наборах данных CIFAR-10, MNIST и ImageNet. Разработанный метод продемонстрировал высокое качество обнаружения и классификации атак. На наборе данных CIFAR-10 точность (accuracy) обнаружения атак (аномалий) составила 98,43 %, а бинарной и многоклассовой классификаций — 99,51 % и 99,07 % соответственно. Обсуждение. Несмотря на то, что точность обнаружения аномалий ниже аналогичного показателя многоклассовой классификации, предложенный метод позволяет успешно применять его для распознавания принципиально схожих атак, не содержащихся в обучающей выборке. Для обнаружения и классификации атак используются только входные данные, в результате чего предложенный метод потенциально может быть использован независимо от архитектуры модели или наличия целевой нейронной сети. Метод может быть рекомендован для обнаружения изображений, искаженных неконвенциональными пиксельными атаками в обучающей выборке.

Ключевые слова:

Статьи в номере