Обнаружение, когда нейронную сеть вводят в заблуждение


Состязательные изображения – самая большая нерешенная проблема в искусственном интеллекте на данный момент, и прогресс наблюдается, но по совершенно неправильным причинам. Теперь у нас есть некоторый прогресс в обнаружении, когда изображение было специально сконструировано, чтобы обмануть нейронную сеть.

Когда они были обнаружены, существование враждебных изображений стало большим шоком, но, возможно, не настолько большим шоком. Тот факт, что нашу большую надежду на будущее ИИ, сверточную нейронную сеть можно обмануть специально сконструированными изображениями, был удивительным. В конце концов, мы привыкли к заголовкам, которые провозглашали, насколько хороши нейронные сети. Когда нейронная сеть неправильно классифицирует изображения, вы можете понять, почему – да, эта огромная волосатая собака действительно немного похожа на щетку. Было и остается правдоподобным, что нейронные сети каким-то образом захватывают часть того, как мы воспринимаем мир.
И все же … есть состязательные изображения.
Состязательное изображение создается путем фотографирования, которое нейронная сеть правильно классифицирует, и добавления к каждому пикселю крошечного значения. Эти крошечные значения должны быть тщательно вычислены, но при добавлении они заставляют нейронную сеть неправильно классифицировать изображение, даже если оно выглядит точно так же, как для человека. Люди работают не так, и это увеличивает дистанцию между нами и нашей любимой нейронной сетью.
Некоторые исследователи изучали эту проблему, но каким-то образом глубокие вопросы о том, почему вообще существуют неблагоприятные изображения, были отодвинуты на второй план меньшими опасениями, что какой-то злоумышленник может извратить работу нейронной сети, предлагая ей враждебные изображения. С этой точки зрения состязательные изображения – это своего рода вредоносное ПО для ИИ, и все, что вам нужно сделать с вредоносным ПО, – это остановить его.

По крайней мере, появились две новые статьи, в которых предполагается, что можно обнаружить состязательный образ. Первый – от исследователей Symantec:
Обнаружение состязательных образцов из артефактов
Глубокие нейронные сети (DNN) – это мощные нелинейные архитектуры, которые, как известно, устойчивы к случайным возмущениям входных данных. Однако эти модели уязвимы для враждебных возмущений – небольших входных изменений, специально созданных для того, чтобы обмануть модель.
В этой статье мы спрашиваем, может ли DNN отличить состязательные образцы от их нормальных и шумных аналогов. Мы исследуем надежность модели на состязательных выборках, рассматривая оценки байесовской неопределенности, доступные в нейронных сетях с отсечением, и выполняя оценку плотности в подпространстве глубоких характеристик, изученных моделью.
Результатом является метод неявного обнаружения злоумышленников, не обращающий внимания на алгоритм атаки. Мы оцениваем этот метод на различных стандартных наборах данных, включая MNIST и CIFAR-10, и показываем, что он хорошо обобщается для различных архитектур и различных атак. Наши результаты показывают, что 85-92% ROC-AUC может быть достигнуто при выполнении ряда стандартных задач классификации с отрицательным классом, который состоит как из нормальных, так и из шумных образцов.
Ключом к этой технике является предположение, что состязательные изображения не являются частью естественного распределения изображений – они не встречаются в природе. По сути, вы можете вычислить, насколько вероятно, что вы увидите изображение, и состязательные изображения не так вероятны, как несостязательные изображения.
Вторая статья принадлежит исследователям из Центра искусственного интеллекта Bosch:
Об обнаружении враждебных возмущений
Машинное обучение и, в частности, глубокое обучение в последние годы значительно продвинулись в решении задач восприятия. Тем не менее, он остается уязвимым для враждебных возмущений входных данных, которые были созданы специально, чтобы обмануть систему, будучи квазинезаметным для человека.
В этой работе мы предлагаем дополнить глубокие нейронные сети небольшой подсетью «детектор», которая обучена задаче двоичной классификации, позволяющей отличать подлинные данные от данных, содержащих враждебные возмущения.
Наш метод ортогонален предыдущей работе по устранению враждебных возмущений, которая в основном была сосредоточена на том, чтобы сделать саму классификационную сеть более устойчивой.
Мы эмпирически показали, что состязательные возмущения могут быть обнаружены на удивление хорошо, даже если они почти незаметны для человека. Более того, хотя детекторы обучены обнаруживать только определенного противника, они распространяются на похожих и более слабых противников. Кроме того, мы предлагаем состязательную атаку, которая обманывает как классификатор, так и детектор, а также новую процедуру обучения детектора, которая противодействует этой атаке.
Хорошо, это помогает с проблемой безопасности. но это также демонстрирует, что в состязательных изображениях есть что-то неестественное.


Добавить комментарий