Алгоритм помогает системам искусственного интеллекта избегать враждебных действий

В идеальном мире вы получаете то, что видите. Если бы это было так, работа систем искусственного интеллекта была бы удивительно простой.

Возьмем системы предотвращения столкновений в беспилотных автомобилях. Если визуальному входу в бортовые камеры можно полностью доверять, система ИИ могла бы напрямую сопоставить этот вход с соответствующим действием – повернуть направо, повернуть налево или продолжить движение прямо – чтобы избежать столкновения с пешеходом, которого камеры видят на дороге. .

Но что, если в камерах возникнет сбой, из-за которого изображение немного смещается на несколько пикселей? Если автомобиль слепо доверяет так называемым «злоумышленникам», он может предпринять ненужные и потенциально опасные действия.

Новый алгоритм глубокого обучения, разработанный исследователями Массачусетского технологического института, призван помочь машинам ориентироваться в реальном несовершенном мире путем формирования здорового «скептицизма» в отношении получаемых ими измерений и входных данных.

Команда объединила алгоритм обучения с подкреплением с глубокой нейронной сетью, которые использовались отдельно для обучения компьютеров игре в видеоигры, такие как го и шахматы, чтобы построить подход, который они называют CARRL, для сертифицированной состязательной устойчивости для глубокого обучения с подкреплением.

/ p>

Исследователи протестировали этот подход в нескольких сценариях, включая имитационный тест предотвращения столкновений и видеоигру Pong, и обнаружили, что CARRL работает лучше – избегая столкновений и выигрывая больше игр Pong – по сравнению со стандартными методами машинного обучения, даже перед лицом сомнительных и враждебных действий.

«Вы часто думаете, что противник – это кто-то, кто взламывает ваш компьютер, но также может быть, что ваши датчики не очень хороши или ваши измерения не идеальны, что часто бывает», – говорит Майкл Эверетт, постдок в отделе аэронавтики и астронавтики Массачусетского технологического института (АэроАстро). «Наш подход помогает учесть это несовершенство и принять безопасное решение. В любой критически важной для безопасности области это важный подход, о котором следует подумать».

Эверетт – ведущий автор исследования, описывающего новый подход, который отражен в документе IEEE Транзакции в нейронных сетях и обучающих системах . Исследование было проведено на основе магистерской диссертации аспиранта Массачусетского технологического института Бджона Лейтенса и проведено под руководством профессора АэроАстро Массачусетского технологического института Джонатана Хау.

Возможные реалии

Чтобы сделать системы ИИ устойчивыми к злоумышленникам, исследователи попытались реализовать средства защиты для контролируемого обучения. Традиционно нейронная сеть обучается связывать определенные ярлыки или действия с заданными входными данными. Например, нейронная сеть, которая получает тысячи изображений, помеченных как кошки, вместе с изображениями, помеченными как дома и хот-доги, должна правильно маркировать новое изображение как кошку.

В надежных системах искусственного интеллекта одни и те же методы контролируемого обучения можно протестировать со многими слегка измененными версиями изображения. Если сеть попадает на один и тот же ярлык – кошка – для каждого изображения, есть большая вероятность, что, измененное или нет, изображение действительно является изображением кошки, и сеть устойчива к любому враждебному влиянию.

Но прохождение всех возможных изменений изображения требует больших вычислительных ресурсов, и их сложно успешно применить к чувствительным ко времени задачам, таким как предотвращение столкновений. Кроме того, существующие методы также не определяют, какую метку использовать или какие действия предпринять, если сеть менее надежна и помечает некоторые измененные изображения кошек как дом или хот-дог.

«Чтобы использовать нейронные сети в критически важных для безопасности сценариях, нам нужно было выяснить, как принимать решения в реальном времени на основе предположений наихудшего случая относительно этих возможных реалий», – говорит Льюмлтдженс.

Лучшая награда

Вместо этого команда стремилась использовать обучение с подкреплением, другую форму машинного обучения, которая не требует связывания помеченных входных данных с выходными данными, а скорее направлена на усиление определенных действий в ответ на определенные входные данные на основе получаемого вознаграждения. Этот подход обычно используется для обучения компьютеров игре и выигрышу в таких играх, как шахматы и го.

Обучение с подкреплением в основном применялось в ситуациях, когда предполагается, что входные данные верны. Эверетт и его коллеги заявляют, что они первыми привнесли «сертифицированную надежность» в неопределенные, враждебные исходные данные в обучении с подкреплением.

Их подход, CARRL, использует существующий алгоритм обучения с глубоким подкреплением для обучения глубокой Q-сети или DQN – нейронной сети с несколькими уровнями, которая в конечном итоге связывает входные данные со значением Q или уровнем вознаграждения.

Подход принимает входные данные, например изображение с одной точкой, и учитывает влияние противника или область вокруг точки, где оно могло бы быть на самом деле. Каждое возможное положение точки в этой области передается через DQN, чтобы найти связанное действие, которое привело бы к наиболее оптимальному вознаграждению в худшем случае, на основе методики, разработанной недавним аспирантом Массачусетского технологического института Цуй-Вэй «Лили» Венг, доктором философии. 20.

Противоборствующий мир

В тестах с видеоигрой Pong, в которой два игрока управляют ракетками по обе стороны экрана, чтобы передавать мяч вперед и назад, исследователи представили «противника», который тянул мяч немного ниже, чем он был на самом деле. Они обнаружили, что CARRL выигрывал больше игр, чем стандартные методы, поскольку влияние противника росло.

“Если мы знаем, что измерению нельзя точно доверять и мяч может находиться в любом месте в пределах определенного региона, тогда наш подход сообщает компьютеру, что он должен поместить ракетку в середину этого региона, чтобы убедиться, что мы бьем по мячу даже в худшем случае », – говорит Эверетт.

Этот метод был столь же надежен в тестах предотвращения столкновений, где команда смоделировала синего и оранжевого агентов, пытающихся поменяться местами без столкновения. Поскольку команда нарушила наблюдение оранжевого агента за позицией синего агента, CARRL направил оранжевого агента вокруг другого агента, занимая более широкую позицию, поскольку противник становился сильнее, а позиция синего агента становилась более неопределенной.

Настал момент, когда CARRL стал слишком консервативным, из-за чего оранжевый агент предположил, что другой агент может быть где угодно поблизости, и в ответ полностью избегал пункта назначения. По словам Эверетта, этот крайний консерватизм полезен, потому что исследователи могут использовать его как предел для настройки устойчивости алгоритма. Например, алгоритм может учитывать меньшее отклонение или область неопределенности, которая все равно позволит агенту получить высокое вознаграждение и достичь места назначения.

Помимо устранения несовершенных датчиков, Эверетт говорит, что CARRL может стать началом помощи роботам в безопасном управлении непредсказуемыми взаимодействиями в реальном мире.

«Люди могут быть враждебными, например, оказаться перед роботом, чтобы заблокировать его сенсоры, или взаимодействовать с ними, не обязательно из лучших побуждений», – говорит Эверетт. «Как может робот думать обо всех вещах, которые люди могут попытаться сделать, и пытаться их избегать? От каких моделей соперничества мы хотим защищаться? Мы думаем над этим, как это сделать».

Это исследование было частично поддержано Ford Motor Company в рамках альянса Ford-MIT.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *