Учимся ходить

Deep Mind применяет свое глубокое обучение с подкреплением к проблеме ходьбы — но не только к любой ходьбе, это труднопроходимая местность. Нейронная сеть иногда ошибается, но все равно впечатляет, и за ее ошибками интересно наблюдать.

Если вы когда-нибудь наблюдали, как робот ходит, вы удивитесь, почему задача такая сложная. Это сложно, но нейронные сети решают некоторые очень сложные задачи, и удивительно, что ходьба роботов не намного лучше, чем она есть на самом деле.
Команда Deep Mind явно считает, что ее подход к обучению с подкреплением — правильный выбор, и из видео это кажется правильным:

В документе, который сопровождает видео, подробно описан подход. В частности, он объясняет, что большая проблема такого рода динамических задач заключается в создании функции вознаграждения. В прошлом, когда для формирования поведения использовались сложные функции вознаграждения, результат был в основном неудачным. Роботы научились ходить, но делали неожиданные вещи, и небольшие изменения в функции вознаграждения привели к большим изменениям в поведении. Команда Deep Mind использовала простую функцию вознаграждения, аргументируя это тем, что сложная функция вознаграждения — это форма переобучения, которая приводит к идиосинкразическим решениям, которые работают в одной обстановке. Они также утверждают, что простая функция вознаграждения, используемая для тренировки на самых разнообразных полосах препятствий, будет способствовать более общему поведению.
Агенты, использованные в обучении, имели ряд отзывов:
(1) набор эгоцентрических, «проприоцептивных» признаков, содержащий углы суставов и угловые скорости; для четвероногих и гуманоидов эти функции также содержат показания велосиметра, акселерометра и гироскопа, расположенного на торсе, обеспечивающего эгоцентрическую информацию о скорости и ускорении, а также контактные датчики, прикрепленные к ступням и ногам. Гуманоид также имеет датчики крутящего момента в суставах нижних конечностей.
(2) набор «экстероцептивных» характеристик, содержащих относящуюся к задаче информацию, включая положение относительно центра пути, а также профиль местности впереди.
Наблюдать за гуманоидом действительно интересно. Если вы видели аналогичные эксперименты, связанные с эволюцией передвижения через ходьбу, результаты могут показаться внешне похожими, но то, как движутся руки в случае нейронной сети, кажется гораздо более определенным. В то время как руки кажутся колышущимися, как сумасшедший сумасшедший, если вы внимательно посмотрите, кажется, что они действительно используются как противовес и как генераторы импульса.
Чтобы добиться движения, более приемлемого для наблюдателей, вероятно, следует изменить функцию вознаграждения, включив в нее плату за то, что руки не находятся близко к исходному положению.

Однако в целом идея простой функции вознаграждения и сложной среды, похоже, работает. Вывод такой:
«Наши эксперименты показывают, что тренировки на разнообразной местности действительно могут привести к развитию нетривиальных навыков передвижения, таких как прыжки, приседание и повороты, для которых разработать разумную награду непросто. Хотя мы не утверждаем, что вариаций окружающей среды будет достаточно , мы считаем, что обучение агентов в более богатой среде и более широкому спектру задач, чем это обычно делается сегодня, вероятно, улучшит качество и надежность усвоенного поведения — а также легкость, с которой их можно изучить. В этом смысле выбор кажущаяся более сложной среда может действительно облегчить обучение «.
Скорее всего, это очень общий результат.

Max Home Industry

разработка программного обеспечения

Учимся ходить

Похожее

Добавить комментарийОтменить ответ

Поделиться ссылкой:

Похожее

Добавить комментарийОтменить ответ