1.Повышение переносимости враждебных атак с помощью обратного враждебного возмущения(arXiv)

Автор:Зэюй Цинь, Янбо Фан, И Лю, Ли Шэнь, Юн Чжан, Цзюэ Ван, Баоюань Ву

Аннотация: было показано, что глубокие нейронные сети (DNN) уязвимы для враждебных примеров, которые могут давать ошибочные прогнозы, вводя незаметные возмущения. В этой работе мы изучаем переносимость состязательных примеров, что важно из-за угрозы для реальных приложений, где архитектура или параметры модели обычно неизвестны. Многие существующие работы показывают, что враждебные примеры, вероятно, будут превосходить суррогатную модель, из которой они созданы, что ограничивает эффективность атаки передачи против различных целевых моделей. Чтобы смягчить переоснащение суррогатной модели, мы предлагаем новый метод атаки, получивший название обратного состязательного возмущения (RAP). В частности, вместо того, чтобы сводить к минимуму потерю одной враждебной точки, мы выступаем за поиск враждебного примера, расположенного в области с единым низким значением потерь, вводя возмущение для наихудшего случая (обратное враждебное возмущение) для каждого шага процедуры оптимизации. Атака противника с помощью RAP формулируется как задача двухуровневой оптимизации минимум-макс. Интегрируя RAP в итеративный процесс атак, наш метод может найти более стабильные состязательные примеры, которые менее чувствительны к изменениям границы решения, уменьшая переоснащение суррогатной модели. Всесторонние экспериментальные сравнения показывают, что RAP может значительно повысить способность злоумышленников к переносу. Кроме того, RAP можно естественным образом комбинировать со многими существующими методами атак методом черного ящика, чтобы еще больше повысить переносимость. При атаке на реальную систему распознавания изображений, Google Cloud Vision API, мы получаем повышение производительности целевых атак на 22% по сравнению с сравниваемым методом. Наши коды доступны на https://github.com/SCLBD/Transfer_attack_RAP

2.Защита подгруппы симметрии от состязательных атак(arXiv)

Автор:Блерта Линдквист

Аннотация:Атаки со стороны противника и средства защиты игнорируют отсутствие инвариантности сверточных нейронных сетей (CNN), то есть неспособность CNN классифицировать выборки и их симметричные преобразования одинаково. Отсутствие инвариантности CNN по отношению к преобразованиям симметрии вредно при классификации преобразованных исходных выборок, но не обязательно вредно при классификации преобразованных враждебных выборок. Для исходных изображений отсутствие инвариантности означает, что симметрично преобразованные исходные образцы классифицируются иначе, чем их правильные метки. Однако для враждебных изображений отсутствие инвариантности означает, что симметрично преобразованные враждебные изображения классифицируются иначе, чем их неправильные враждебные метки. Может ли отсутствие инвариантности CNN вернуть симметрично преобразованные враждебные выборки к правильной классификации? Эта статья дает утвердительный ответ на этот вопрос для модели угроз, которая варьируется от злоумышленников с нулевым разглашением до злоумышленников с совершенным знанием. Мы основываем нашу защиту от противников с совершенным знанием на разработке подгруппы четырех симметрий Клейна, которая включает дополнительную искусственную симметрию инверсии интенсивности пикселей. Свойство замыкания подгруппы не только обеспечивает основу для оценки точности, но также ограничивает преобразования, которые может применить адаптивный противник с совершенным знанием. Мы обнаружили, что, используя только защиту симметрии, не используя состязательные выборки и ничего не меняя в архитектуре и параметрах модели, мы можем защищаться от состязательных атак PGD методом «белого ящика», превосходя обучающую защиту PGD примерно на 50 % даже против совершенное знание противника для ImageNet. Предлагаемая защита также поддерживает и превосходит точность классификации для непротиворечивых выборок.

3.Практические состязательные атаки на модели пространственно-временного прогнозирования трафика(arXiv)

Автор:Фань Лю, Хао Лю, Вэньчжао Цзян

Аннотация .Модели прогнозирования дорожного движения на основе машинного обучения используют сложные пространственно-временные автокорреляции для точного прогнозирования состояния дорожного движения в масштабах города. Однако существующие методы предполагают надежную и непредвзятую среду прогнозирования, которая не всегда доступна в дикой природе. В этой работе мы исследуем уязвимость моделей пространственно-временного прогнозирования трафика и предлагаем практическую структуру состязательной пространственно-временной атаки. В частности, вместо одновременной атаки на все географически распределенные источники данных предлагается итеративный метод значимости узлов с градиентным управлением для определения зависящего от времени набора узлов-жертв. Кроме того, мы разрабатываем схему, основанную на пространственно-временном градиентном спуске, для создания действительных состязательных состояний трафика при ограничении возмущения. Между тем, мы теоретически демонстрируем наихудшую границу производительности состязательных атак с прогнозированием трафика. Обширные эксперименты с двумя реальными наборами данных показывают, что предлагаемая двухэтапная структура обеспечивает снижение производительности до 67,8% в различных передовых моделях пространственно-временного прогнозирования. Примечательно, что мы также показываем, что противоборствующее обучение с помощью предлагаемых нами атак может значительно повысить надежность моделей пространственно-временного прогнозирования трафика. Наш код доступен в \url{https://github.com/luckyfan-cs/ASTFA}.