Одно возмущение может обмануть глубокое обучение


Если вы читали наши отчеты о изображениях со злым умыслом, заголовок не должен вас удивить. Что удивительно, так это то, как исследователи ИИ рассматривают такие изображения как угрозы безопасности, а не как глубокое понимание того, как работают нейронные сети.

Когда были обнаружены состязательные изображения, это было сюрпризом. Проще говоря, вы можете создать небольшое ценное изображение, возмущение, которое при добавлении к существующему правильно классифицированному изображению приведет к его неправильной классификации, даже если человек не видит никакой разницы. Намекнули на то, что такие возмущения таким же образом нарушили классификацию ряда нейронных сетей и, возможно, даже другие подходы к машинному обучению.
Вскоре после этого исследователи из Лаборатории обработки сигналов EPFL обнаружили, что можно не только вычислить враждебное изображение для конкретного изображения и конкретной сети, но и найти единичное возмущение, которое в некотором смысле универсально. Это означает, что вы можете предварительно вычислить возмущение, добавить его к изображению и быть вполне уверенным, что любой ИИ на принимающей стороне ошибается, независимо от его архитектуры. Обратите внимание, что возмущение не зависит от изображения.

Мы сообщали об универсальных состязательных изображениях еще в ноябре 2016 года, у нейронных сетей есть универсальный недостаток, но теперь документ был принят для презентации на конференции IEEE по компьютерному зрению и распознаванию образов, которая проходит на Гавайях в июле 2017 года, и есть видео, объясняющее или, скорее, продвижение исследования.
Однако вместо того, чтобы удивляться тайне всего этого и того, что они могут рассказать нам о нейронных сетях, речь идет о безопасности:
«Учитывая современный классификатор глубокой нейронной сети, мы показываем существование универсального (не зависящего от изображений) и очень малого вектора возмущения, который с высокой вероятностью приводит к неправильной классификации естественных изображений. Мы предлагаем систематический алгоритм вычислений универсальные возмущения и показывают, что современные глубокие нейронные сети очень уязвимы для таких возмущений, хотя и почти незаметны для человеческого глаза. Мы далее эмпирически анализируем эти универсальные возмущения и показываем, в частности, что они очень хорошо обобщают через нейронные сети. Удивительное существование универсальных возмущений выявляет важные геометрические корреляции между многомерными границами принятия решений классификаторов. В нем дополнительно выделяются потенциальные нарушения безопасности с наличием отдельных направлений во входном пространстве, которые злоумышленники могут использовать для взлома классификатора самые естественные изображения «.
Вы также можете получить представление об исследовании в видео:

Это, возможно, самый важный необъяснимый аспект нейронных сетей и машинного обучения, и он изучается как проблема безопасности. Что какой-то злой человек вводит в заблуждение машинный интеллект? Что, если беспилотный автомобиль разбился из-за того, что в видеопоток был введен враждебный сигнал?
Ни один из этих и многих подобных вопросов не так интересен, как фундаментальный вопрос: что именно происходит? Понятно, что состязательные возмущения не являются «естественными» образами. Они регулярны и просто не встречаются в природе:

Таким образом, сети не включают их в свое обучение, потому что они их просто не видят. Подвержена ли человеческая зрительная система тому же недостатку? Если нет, то почему?


Добавить комментарий