Как обучить робота (используя ИИ и суперкомпьютеры)


Прежде чем он присоединился к Техасскому университету в Арлингтоне в качестве доцента на факультете компьютерных наук и инженерии и основал там лабораторию Robotic Vision, Уильям Бекси проходил стажировку в iRobot, крупнейшем в мире производителе потребительских роботов (в основном через его Roomba). робот-пылесос).

Для навигации по искусственной среде роботы должны уметь распознавать и принимать решения о том, как взаимодействовать с их локалью. Исследователи компании были заинтересованы в использовании машинного обучения и глубокого обучения для обучения своих роботов изучению объектов, но для этого требовался большой набор данных с изображениями. Хотя есть миллионы фотографий и видео комнат, ни одна из них не была снята с точки зрения робота-пылесоса. Попытки научиться использовать изображения с ориентированной на человека перспективой не увенчались успехом.

Исследования Бекси сосредоточены на робототехнике, компьютерном зрении и киберфизических системах. «В частности, меня интересует разработка алгоритмов, которые позволяют машинам учиться на своем взаимодействии с физическим миром и автономно приобретать навыки, необходимые для выполнения задач высокого уровня», — сказал он.

Спустя годы, теперь в исследовательской группе, в которую входят шесть студентов-докторов наук по информатике, Бекси вспомнил о проблеме обучения Roomba и начал поиск решений. Некоторые используют ручной подход, который предполагает использование дорогой камеры с обзором на 360 градусов для съемки окружающей среды (включая арендуемые дома Airbnb) и специального программного обеспечения для объединения изображений в единое целое. Но Бекси полагал, что метод ручного захвата будет слишком медленным, чтобы добиться успеха.

Вместо этого он обратился к форме глубокого обучения, известной как генеративные состязательные сети, или GAN, где две нейронные сети соревнуются друг с другом в игре, пока «генератор» новых данных не сможет обмануть «дискриминатор». После обучения такая сеть позволит создавать бесконечное количество возможных комнат или наружных сред с различными видами стульев, столов или транспортных средств с немного разными формами, но все же — для человека и робота — идентифицируемые объекты с помощью узнаваемые размеры и характеристики.

«Вы можете возмущать эти объекты, перемещать их в новое положение, использовать другое освещение, цвет и текстуру, а затем визуализировать их в обучающее изображение, которое можно использовать в наборе данных», — пояснил он. «Такой подход потенциально может предоставить неограниченное количество данных для обучения робота».

«Ручное проектирование этих объектов потребует огромного количества ресурсов и часов человеческого труда, в то время как при правильном обучении генеративные сети могут создавать их за секунды», — сказал Мохаммад Самиул Аршад, аспирант группы Бекси, участвовавший в исследования.

СОЗДАНИЕ ОБЪЕКТОВ ДЛЯ СИНТЕТИЧЕСКИХ СЦЕН

После некоторых первоначальных попыток Бекси понял, что его мечта о создании фотореалистичных полных сцен в настоящее время недостижима. «Мы сделали шаг назад и посмотрели на текущие исследования, чтобы определить, как начать с меньшего масштаба — создания простых объектов в окружающей среде».

Бекси и Аршад представили PCGAN, первую условную генеративную состязательную сеть, которая генерирует плотные цветные облака точек в неконтролируемом режиме, на Международной конференции по 3D Vision (3DV) в ноябре 2020 года. Их статья «Прогрессивная условная генеративная состязательность» Сеть для создания плотных и цветных трехмерных облаков точек «показывает, что их сеть способна обучаться на основе обучающего набора (полученного из ShapeNetCore, базы данных моделей САПР) и имитировать распределение трехмерных данных для создания цветных облаков точек с мелкими деталями при различных разрешениях.

«Были некоторые работы, в которых можно было создавать синтетические объекты из этих наборов данных модели САПР», — сказал он. «Но никто еще не мог справиться с цветом».

Чтобы проверить свой метод на разнообразных формах, команда Бекси выбрала для эксперимента стулья, столы, диваны, самолеты и мотоциклы. Этот инструмент позволяет исследователям получить доступ к почти бесконечному количеству возможных версий набора объектов, генерируемых системой глубокого обучения.

«Наша модель сначала изучает базовую структуру объекта при низком разрешении и постепенно расширяется до деталей высокого уровня», — пояснил он. «Связь между частями объекта и их цветами — например, ножки стула / стола одного цвета, а сиденье / столешница — контрастные — также изучается сетью. Мы начинаем с малого, работая с объектами. , и построение иерархии для создания полностью синтетических сцен, которые были бы чрезвычайно полезны для робототехники «.

Они сгенерировали 5000 случайных выборок для каждого класса и провели оценку с использованием ряда различных методов. Они оценили как геометрию облака точек, так и цвет, используя множество общих показателей в полевых условиях. Их результаты показали, что PCGAN может синтезировать высококачественные облака точек для разрозненного массива классов объектов.

SIM2REAL

Еще одна проблема, над которой работает Бекси, в просторечии называется «sim2real». «У вас есть реальные тренировочные данные и синтетические тренировочные данные, и могут быть небольшие различия в том, как система ИИ или робот учится на них», — сказал он. «Sim2real» рассматривает, как количественно оценить эти различия и сделать моделирование более реалистичным, фиксируя физику этой сцены — трение, столкновения, гравитацию — и используя трассировку лучей или фотонов »

Следующим шагом для команды Бекси является развертывание программного обеспечения на роботе и наблюдение за тем, как оно работает в связи с разрывом между симулятором и реальным доменом.

Обучение модели PCGAN стало возможным благодаря ресурсу глубокого обучения TACC Maverick 2, к которому Бекси и его студенты получили доступ через программу исследования киберинфраструктуры (UTRC) Техасского университета, которая предоставляет вычислительные ресурсы исследователям в любой из 14 учреждений системы UT

«Если вы хотите увеличить разрешение, чтобы включить больше точек и деталей, это увеличение связано с увеличением вычислительных затрат», — отметил он. «У нас нет этих аппаратных ресурсов в моей лаборатории, поэтому для этого было необходимо использовать TACC».

Помимо вычислений, Бекси требовалось обширное хранилище для исследований. «Эти наборы данных огромны, особенно трехмерные облака точек», — сказал он. «Мы генерируем сотни мегабайт данных в секунду; каждое облако точек составляет около 1 миллиона точек. Для этого вам понадобится огромный объем хранилища».

Хотя Бекси говорит, что в этой области еще очень далеко до действительно хороших, надежных роботов, которые могут быть автономными в течение длительного времени, это принесет пользу нескольким областям, включая здравоохранение, производство и сельское хозяйство.

«Публикация — всего лишь один маленький шаг к конечной цели создания синтетических сцен внутренней среды для развития возможностей восприятия роботов», — сказал он.


Добавить комментарий