Deep Mind и StarCraft II для обучения с подкреплением


После Go, что будет дальше с Google Deep Mind? Один из ответов — виртуальная война в стратегии в реальном времени StarCraft II — галактическая межвидовая борьба за господство.

На BlizzCon 2016 было объявлено о сотрудничестве Deep Mind с Blizzard Entertainment, чтобы открыть StarCraft II для исследователей ИИ и машинного обучения по всему миру. Идея заключалась в том, что игра, в которой игроки сражаются друг с другом, собирая ресурсы для оплаты защиты а наступательные подразделения, включающие планирование и принятие решений, предоставляют полезный сценарий для обучения с подкреплением.
Согласно блогу DeepMind:
DeepMind выполняет научную миссию по расширению границ искусственного интеллекта, разрабатывая программы, которые могут научиться решать любую сложную проблему без необходимости объяснять, как это сделать. Игры — идеальная среда для этого, позволяющая нам быстро и эффективно разрабатывать и тестировать более умные и гибкие алгоритмы искусственного интеллекта, а также мгновенно получать отзывы о том, как мы делаем это, с помощью оценок.
StarCraft представляет собой интересную среду тестирования для текущих исследований ИИ, потому что она обеспечивает полезный мост к беспорядку реального мира. Навыки, необходимые агенту для прохождения среды и хорошей игры в StarCraft, в конечном итоге могут быть переданы для решения реальных задач.
В сообщении блога объясняется, как StarCraft как стратегическая игра в реальном времени является подходящим средством для исследователей ИИ:
Агент, который может играть в StarCraft, должен будет продемонстрировать эффективное использование памяти, способность планировать на долгое время и способность адаптировать планы на основе новой информации. Компьютеры способны к чрезвычайно быстрому управлению, но это не обязательно демонстрирует интеллект, поэтому агенты должны взаимодействовать с игрой в пределах человеческой ловкости с точки зрения «действий в минуту». Пространство действий большого размера в StarCraft сильно отличается от тех, которые ранее исследовались в исследованиях обучения с подкреплением; чтобы выполнить что-то столь же простое, как «расширить свою базу в какое-то место», нужно координировать щелчки мыши, камеру и доступные ресурсы.
Команды DeepMind и SpaceCraft II совместно разработали API, который позволяет программно управлять отдельными юнитами и получать доступ к полному состоянию игры:
В конечном итоге агенты будут играть непосредственно с пикселей, поэтому для этого мы разработали новый интерфейс на основе изображений, который выводит упрощенные данные изображения RGB с низким разрешением для карты и миникарты, а также возможность разбивать объекты на отдельные «слои». , например, поле высоты местности, тип юнита, здоровье юнита и т. д.
Этот видеоклип является примером того, как будет выглядеть API векторного слоя:

В сообщении также говорится:
Мы также работаем с Blizzard над созданием сценариев «учебных программ», которые представляют все более сложные задачи, позволяющие исследователям любого уровня запускать и запускать агента, а также тестировать различные алгоритмы и достижения.
Хотя этот пост не описывает, как именно внешние исследователи ИИ получают доступ к среде SpaceCraft II, он указывает, что он станет частью предстоящего Лабиринта DeepMind, который будет выпущен под лицензией с открытым исходным кодом.


Добавить комментарий