Пять ботов OpenAI по Dota 2 победили лучших игроков

Команда, состоящая из пяти агентов искусственного интеллекта, которые научились играть в Dota 2 с нуля, просто исследуя и экспериментируя, убедительно обыграла команду из пяти человек-игроков, четверо из которых являются высококлассными профессионалами Dota 2.

В прошлом году единственный бот OpenAI Dota 2 неожиданно появился на международном турнире Valve по Dota 2 в Сиэтле и одержал решающую победу в игре против Данило «Dendi» Ишутина, который, проиграв в первых двух раундах, отказался играть в третьем. Этому боту потребовалось всего две недели, чтобы он ничего не знал о Dota 2, видеоигре о боевой арене от Valve, цель которой – уничтожить большую структуру противника, известную как Древний, защищая свою собственную.
Добившись успеха в мини-игре Dota 1v1, OpenAI продолжил обучать ботов работать вместе в команде из 5 человек, что является обычным форматом для игры в Dota 2. Команда из пяти нейронных сетей, OpenAI Five играет 180 лет против каждый день, чтобы сразиться с лучшими игроками-людьми в полной игре.
Согласно Open AI:
Он обучается с использованием расширенной версии Proximal Policy Optimization, работающей на 256 графических процессорах и 128 000 ядер процессора – более крупномасштабная версия системы, которую мы создали для игры в гораздо более простой одиночный вариант игры в прошлом году. Используя отдельный LSTM для каждого героя и не используя человеческие данные, он изучает узнаваемые стратегии. Это указывает на то, что обучение с подкреплением может привести к долгосрочному планированию с большим, но достижимым масштабом – без фундаментальных достижений, вопреки нашим ожиданиям при запуске проекта.
В рамках подготовки к Valve International 8 в этом году, в конце этого месяца 5 августа в Сан-Франциско прошел матч OpenAI Five Benchmark. Это был лучший из трех игроков против команды из 99,95-го процентиля игроков Dota: Blitz, Cap, Fogged, Merlini и MoonMeander, четверо из которых профессионально играли в Dota, перед живой аудиторией и 100000 одновременных зрителей прямых трансляций. В игре все еще были некоторые ограничения:

Пул из 18 героев вместо 113
Нет божественной рапиры, Бутылка
Нет призыва / иллюзий
5 неуязвимых курьеров, которых нельзя использовать разведкой или танкованием
Нет сканирования

Перед сравнительной игрой команда добровольцев из числа зрителей провела публичный матч против OpenAI Five. Пятерка выиграла за 14 минут, тогда как равная игра длилась около 45 минут.

В самом матче Benchmark была раскрыта новая возможность OpenAI Five – драфтинг, что считается чрезвычайно сложной частью Dota, поскольку герои взаимодействуют друг с другом сложным образом. Это было реализовано как расширение добавления вывода вероятности выигрыша в нейронную сеть для самоанализа того, что предсказывает OpenAI Five.

Последний блог OpenAI объясняет:
Позднее при рассмотрении драфта мы поняли, что можем использовать это для оценки вероятности победы любого драфта: просто посмотрите на прогноз на первом кадре игры с этим составом. За одну неделю внедрения мы создали поддельный фрейм для каждого из 11 миллионов возможных командных матчей и написали поиск по дереву, чтобы найти оптимальный проект OpenAI Five.
В сообщении о результатах сравнительного анализа указано в блоге:
После драфта игры 1 OpenAI Five предсказал 95% -ную вероятность победы, даже несмотря на то, что этот матч казался почти равным даже человеческим наблюдателям. Первую игру он выиграл за 21 минуту 37 секунд. После драфта игры 2 OpenAI Five предсказал вероятность победы 76,2% и выиграл вторую через 24 минуты 53 секунды.
Учитывая, что OpenAI Five уже выиграла, для третьей игры аудиторию пригласили составить черновик героев OpenAI Five и выбрать состав, который был описан как «довольно Looney-Tunes».

Open AI Five предсказал шанс выигрыша 2,9%, позже он повысился до 17%, но проиграл через 35 минут 47 секунд.
Это видео OpenAI предназначено для того, чтобы дать некоторое представление о планировании модели с помощью выходных данных, которые предсказывают, где герой будет в будущем. В нем выделенные поля показывают прогнозируемое местоположение Свена через 6 секунд:

OpenAI Five продолжает подготовку к игре команды профессионалов на The International. Что касается времени вычислений, модель Auguest 5th использует 190 петафлоп / с-дней, что является большим количеством вычислений.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *