AI побеждает на кубике Рубика одной рукой

Лучшим заголовком было бы «с одной рукой, связанной за спиной», но у этого робота нет другой руки и спины, о которой вы говорите. Однако у него есть две нейронные сети, и он может собрать куб одной рукой. В чем важность этой работы?

Мы продолжаем видеть примеры нейронных сетей, решающих сложные проблемы, но в основном симуляции или игры. Вам, должно быть, пришло в голову, что действительно интересным приложением было бы поместить нейронную сеть в робота и посмотреть, насколько хорошо он ходит, бегает или что-то еще. Это то, что сейчас опробовали в OpenAI. В этом случае компонент реального мира — это роботизированная рука, похожая на человека. Только один.

Архитектура системы включает три сети видения для определения положения куба и повторяющуюся сеть для управления рукой:

Конечно, обучение сети с помощью реальной руки заняло бы слишком много времени для десятков тысяч необходимых повторений, и это было достигнуто с помощью моделирования.
Нейронная сеть, управляющая рукой, была обучена с использованием обучения с подкреплением, но в смоделированной среде. Проблема с смоделированными средами заключается в том, что в них обычно отсутствуют вариации, встречающиеся в реальном мире. Решение, предложенное командой OpenAI, — это ADR — автоматическая рандомизация доменов. Вместо того, чтобы немного изменить задачу, были изменены параметры симуляции, то есть не только скремблирование кубика Рубика, но и его динамика. Сначала среда фиксируется, и робот учится манипулировать кубом. После этого начального обучения начинается рандомизация — размер куба немного меняется, меняется динамика руки и так далее. Это заставляет систему изучить надежное и, надеюсь, универсальное решение.
Чтобы увидеть, применимо ли обучение к реальному миру, проблема была перенесена на реальное оборудование, и это оборудование было протестировано в ряде неидеальных ситуаций. Рука робота, эквивалентная пинанию собаки-робота, включает в себя надевание резиновой перчатки, связывание двух пальцев, ткание куба плюшевым жирафом и т. Д. Я не заставлял жирафа расставаться.

Есть отличное видео, объясняющее идеи, но я думаю, что это неразрезанное видео, показывающее руку в действии, более впечатляет, и помните, когда вы смотрите его, ни одно из этих действий не было запрограммировано:

А теперь посмотрите красивое презентационное видео, оно тоже интересно:

Это не идеально, и робот решает куб только 60% времени и только 20% времени для максимально сложной схватки, поэтому нам не нужно беспокоиться о том, что в данный момент он победит людей. Что еще более важно, нейронные сети и настоящие роботы работают вместе, и обучение с подкреплением с помощью моделирования, кажется, является способом добиться этого.
Как говорится в исследовательской статье:
«В этой работе мы представляем автоматическую рандомизацию домена (ADR), мощный алгоритм для sim2real передачи. Мы показываем, что ADR приводит к улучшениям по сравнению с ранее установленными базовыми показателями, которые используют ручную рандомизацию домена как для видения, так и для контроля. Мы также демонстрируем, что ADR, когда в сочетании с нашей настраиваемой платформой роботов, позволяет нам успешно решать проблему манипулирования беспрецедентной сложности: решать кубик Рубика, используя настоящего гуманоидного робота, Теневую ловкую руку. Систематически изучая поведение наших усвоенных политик, мы находим явные признаки появления метаобучение. Политики, обученные с помощью ADR, могут адаптироваться во время развертывания к физической реальности, которую они никогда не видели во время обучения, посредством обновления их текущего состояния «.

Max Home Industry

разработка программного обеспечения

AI побеждает на кубике Рубика одной рукой

Похожее

Добавить комментарийОтменить ответ

Поделиться ссылкой:

Похожее

Добавить комментарийОтменить ответ