AI побеждает на кубике Рубика одной рукой


Лучшим заголовком было бы «с одной рукой, связанной за спиной», но у этого робота нет другой руки и спины, о которой вы говорите. Однако у него есть две нейронные сети, и он может собрать куб одной рукой. В чем важность этой работы?

Мы продолжаем видеть примеры нейронных сетей, решающих сложные проблемы, но в основном симуляции или игры. Вам, должно быть, пришло в голову, что действительно интересным приложением было бы поместить нейронную сеть в робота и посмотреть, насколько хорошо он ходит, бегает или что-то еще. Это то, что сейчас опробовали в OpenAI. В этом случае компонент реального мира — это роботизированная рука, похожая на человека. Только один.

Архитектура системы включает три сети видения для определения положения куба и повторяющуюся сеть для управления рукой:

Конечно, обучение сети с помощью реальной руки заняло бы слишком много времени для десятков тысяч необходимых повторений, и это было достигнуто с помощью моделирования.
Нейронная сеть, управляющая рукой, была обучена с использованием обучения с подкреплением, но в смоделированной среде. Проблема с смоделированными средами заключается в том, что в них обычно отсутствуют вариации, встречающиеся в реальном мире. Решение, предложенное командой OpenAI, — это ADR — автоматическая рандомизация доменов. Вместо того, чтобы немного изменить задачу, были изменены параметры симуляции, то есть не только скремблирование кубика Рубика, но и его динамика. Сначала среда фиксируется, и робот учится манипулировать кубом. После этого начального обучения начинается рандомизация — размер куба немного меняется, меняется динамика руки и так далее. Это заставляет систему изучить надежное и, надеюсь, универсальное решение.
Чтобы увидеть, применимо ли обучение к реальному миру, проблема была перенесена на реальное оборудование, и это оборудование было протестировано в ряде неидеальных ситуаций. Рука робота, эквивалентная пинанию собаки-робота, включает в себя надевание резиновой перчатки, связывание двух пальцев, ткание куба плюшевым жирафом и т. Д. Я не заставлял жирафа расставаться.

Есть отличное видео, объясняющее идеи, но я думаю, что это неразрезанное видео, показывающее руку в действии, более впечатляет, и помните, когда вы смотрите его, ни одно из этих действий не было запрограммировано:

А теперь посмотрите красивое презентационное видео, оно тоже интересно:

Это не идеально, и робот решает куб только 60% времени и только 20% времени для максимально сложной схватки, поэтому нам не нужно беспокоиться о том, что в данный момент он победит людей. Что еще более важно, нейронные сети и настоящие роботы работают вместе, и обучение с подкреплением с помощью моделирования, кажется, является способом добиться этого.
Как говорится в исследовательской статье:
«В этой работе мы представляем автоматическую рандомизацию домена (ADR), мощный алгоритм для sim2real передачи. Мы показываем, что ADR приводит к улучшениям по сравнению с ранее установленными базовыми показателями, которые используют ручную рандомизацию домена как для видения, так и для контроля. Мы также демонстрируем, что ADR, когда в сочетании с нашей настраиваемой платформой роботов, позволяет нам успешно решать проблему манипулирования беспрецедентной сложности: решать кубик Рубика, используя настоящего гуманоидного робота, Теневую ловкую руку. Систематически изучая поведение наших усвоенных политик, мы находим явные признаки появления метаобучение. Политики, обученные с помощью ADR, могут адаптироваться во время развертывания к физической реальности, которую они никогда не видели во время обучения, посредством обновления их текущего состояния «.


Добавить комментарий