Кооперативный ИИ побеждает людей на Quake CTF


Кто сказал, что только люди могут сотрудничать? ИИ не только сумел преодолеть этот барьер, но и победить людей в их собственной игре.

Помимо забавы, соревнования по захвату флага трудно выиграть даже людям. В подобных соревнованиях каждая соревнующаяся команда, состоящая из двух или более товарищей по команде, занимает базовый лагерь, обозначенный отдельным флагом. Команда должна защищать свой флаг любой ценой, но в то же время захватывать и удерживать флаги других команд, чтобы выиграть соревнование. То же самое происходит, когда страна завоевывается: победитель складывает домашний флаг, чтобы заменить его собственным символом. На техническом сленге это определение слова «принадлежащий».

DeepMind удалось проникнуть в этот до вчерашнего дня эксклюзивный клуб, обучая программных агентов игре в Quake, используя свой любимый метод обучения с подкреплением. Обучение с подкреплением не предполагает никаких предварительных знаний об окружающей среде или предыдущего опыта. Мы видели пример этого еще в 2017 году, когда сообщали о Microsoft’s The Malmo Challenge, где исследователи пытались заставить персонажа Minecraft подняться на виртуальный холм. Это могло показаться не таким уж большим делом, но разница заключалась в том, что этот агент ИИ пытался преодолеть свое препятствие, обучаясь и взаимодействуя с окружающей средой, не будучи запрограммированным на это, а методом проб и ошибок.
Project Malmo организовал конкурс для всех заинтересованных сторон на разработку агентов, которые могут в настройках игры Minecraft работать вместе, чтобы решать мини-головоломки. Представьте себе многопользовательскую игру Minecraft, в которой игроки – компьютерный ИИ, а не люди, которые стремятся:
«разрабатывать технологии, способные понимать намерения других, разрабатывать общую стратегию решения проблем и координировать деятельность для эффективного выполнения общей задачи».
Следуя по его стопам, используя сочетание RL и эволюционных / генетических алгоритмов, агенты DeepMind учатся на опыте, полученном в результате игры из группы товарищей по команде и противников, потребляющих только пиксельное представление от первого лица окружающей среды, которую видит каждый агент, и текущее результаты игр. RL предоставляет политику / правила для каждого агента, в то время как генетический алгоритм адаптирует внутренние вознаграждения и гиперпараметры для выбора наиболее эффективных агентов, заменяя их недостаточно эффективные аналоги мутированными версиями лучших агентов.

Генетический алгоритм, использующий моделируемую мутацию и скрещивание, превращает популяцию в более новые популяции, которые работают лучше, чем их предки. Этот эволюционный процесс выполняется непрерывно до тех пор, пока не будет удовлетворен критерий завершения, таким образом, чтобы найти политику, которая максимизирует ожидаемое совокупное вознаграждение, то есть захват флагов за T временных шагов. Если запуск прошел успешно, результатом может быть решение (или приблизительное решение) проблемы.
Так что, как и при Мальме, кажется, что мы уже далеко вышли из фазы единственного агента ИИ и вступаем в новую эру, когда ИИ активно стремятся к сотрудничеству. Практические последствия такого развития событий имеют далеко идущие последствия; например, при разработке агентов по автономному вождению, которые могут разговаривать друг с другом, чтобы решить, кому будет отдан приоритет при переходе дороги, или уведомить другие транспортные средства о том, что они должны наступить на перерывы, чтобы избежать аварий.
В конечном итоге это приведет к сотрудничеству ИИ с людьми, даже в таких областях, как война, как мы исследовали в книге «Достижение автономного ИИ ближе, чем мы думаем», где разрекламированный алгоритм АЛЬФА поддерживает искусственных ведомых, которые не только общаются друг с другом, но и со своими людьми-операторами, которым в боевых симуляторах даже удается превзойти своих коллег-людей.
Кстати, если вы обратили внимание на приведенный выше снимок экрана, это результат ремастеринга Quake II с трассировкой лучей RTX от Nvidia, три первых уровня которого бесплатны. Чтобы узнать больше, см. Quake II RTX, доступный для Windows и Linux 6 июня.


Добавить комментарий