Учимся ходить


Deep Mind применяет свое глубокое обучение с подкреплением к проблеме ходьбы – но не только к любой ходьбе, это труднопроходимая местность. Нейронная сеть иногда ошибается, но все равно впечатляет, и за ее ошибками интересно наблюдать.

Если вы когда-нибудь наблюдали, как робот ходит, вы удивитесь, почему задача такая сложная. Это сложно, но нейронные сети решают некоторые очень сложные задачи, и удивительно, что ходьба роботов не намного лучше, чем она есть на самом деле.
Команда Deep Mind явно считает, что ее подход к обучению с подкреплением – правильный выбор, и из видео это кажется правильным:

В документе, который сопровождает видео, подробно описан подход. В частности, он объясняет, что большая проблема такого рода динамических задач заключается в создании функции вознаграждения. В прошлом, когда для формирования поведения использовались сложные функции вознаграждения, результат был в основном неудачным. Роботы научились ходить, но делали неожиданные вещи, и небольшие изменения в функции вознаграждения привели к большим изменениям в поведении. Команда Deep Mind использовала простую функцию вознаграждения, аргументируя это тем, что сложная функция вознаграждения – это форма переобучения, которая приводит к идиосинкразическим решениям, которые работают в одной обстановке. Они также утверждают, что простая функция вознаграждения, используемая для тренировки на самых разнообразных полосах препятствий, будет способствовать более общему поведению.
Агенты, использованные в обучении, имели ряд отзывов:
(1) набор эгоцентрических, «проприоцептивных» признаков, содержащий углы суставов и угловые скорости; для четвероногих и гуманоидов эти функции также содержат показания велосиметра, акселерометра и гироскопа, расположенного на торсе, обеспечивающего эгоцентрическую информацию о скорости и ускорении, а также контактные датчики, прикрепленные к ступням и ногам. Гуманоид также имеет датчики крутящего момента в суставах нижних конечностей.
(2) набор «экстероцептивных» характеристик, содержащих относящуюся к задаче информацию, включая положение относительно центра пути, а также профиль местности впереди.
Наблюдать за гуманоидом действительно интересно. Если вы видели аналогичные эксперименты, связанные с эволюцией передвижения через ходьбу, результаты могут показаться внешне похожими, но то, как движутся руки в случае нейронной сети, кажется гораздо более определенным. В то время как руки кажутся колышущимися, как сумасшедший сумасшедший, если вы внимательно посмотрите, кажется, что они действительно используются как противовес и как генераторы импульса.
Чтобы добиться движения, более приемлемого для наблюдателей, вероятно, следует изменить функцию вознаграждения, включив в нее плату за то, что руки не находятся близко к исходному положению.

Однако в целом идея простой функции вознаграждения и сложной среды, похоже, работает. Вывод такой:
«Наши эксперименты показывают, что тренировки на разнообразной местности действительно могут привести к развитию нетривиальных навыков передвижения, таких как прыжки, приседание и повороты, для которых разработать разумную награду непросто. Хотя мы не утверждаем, что вариаций окружающей среды будет достаточно , мы считаем, что обучение агентов в более богатой среде и более широкому спектру задач, чем это обычно делается сегодня, вероятно, улучшит качество и надежность усвоенного поведения – а также легкость, с которой их можно изучить. В этом смысле выбор кажущаяся более сложной среда может действительно облегчить обучение “.
Скорее всего, это очень общий результат.


Добавить комментарий