Запись Тренировки ImageNet – 24 Минуты


Одна из проблем с нейронными сетями заключается в том, сколько времени требуется для их обучения. Исследователи только что преодолели барьер обучения, сократив время обучения ResNet с 14 дней до одного часа, и установили мировой рекорд в 24 минуты для AlexNet с более низким аппаратным бюджетом, чем у Facebook.

Время, необходимое для обучения сети, является фундаментальным препятствием для прогресса. Если для обучения сети требуется две недели, вы не сможете легко опробовать новые идеи. Если вы хотите изменить настройки, вам придется подождать две недели, чтобы убедиться, что это работает, и вы не можете действительно сократить время обучения, решая более мелкие проблемы, потому что это большие проблемы, когда вещи либо работают, либо не работают. Нам действительно нужен более быстрый способ обучения сетей. 

В настоящее время наиболее распространенный подход к тому, чтобы сделать вещь быстрее, заключается в том, чтобы бросать на нее все больше и больше графических процессоров и надеяться, что все ускорится. Команда Ян Вы, Чжао Чжан, Джеймс Деммель, Курт Кеутцер, Чо-Цзюй Се из Калифорнийского университета в Беркли, Техасский центр передовых вычислений (TACC) и Калифорнийский университет в Дэвисе использовали другой подход с помощью программного обеспечения и способа использования параллельного оборудования:

Завершение обучения 90-epoch ImageNet-1k с помощью ResNet-50 на графическом процессоре NVIDIA M40 занимает 14 дней. Это обучение требует в общей сложности 1018 одиночных точных операций. С другой стороны, самый быстрый в мире суперкомпьютер в настоящее время может выполнять 2 × 1017 операций с одной точностью в секунду. Если мы сможем в полной мере использовать суперкомпьютер для обучения DNN, мы сможем завершить обучение 90-epoch ResNet-50 за пять секунд. Однако в настоящее время узкое место для быстрого обучения DNN находится на уровне алгоритма. В частности, текущий размер пакета (например, 512) слишком мал, чтобы эффективно использовать многие процессоры

Для крупномасштабного обучения DNN мы фокусируемся на использовании синхронного SGD с параллелизмом больших партий данных без потери точности в фиксированные эпохи. Алгоритм LARS позволяет нам масштабировать размер пакета до чрезвычайно большого размера (например, 32K). Мы заканчиваем 100-минутный тренинг ImageNet с AlexNet за 24 минуты, что является мировым рекордом. Так же, как и результат Facebook, мы заканчиваем 90-минутный тренинг ImageNet с ResNet-50 за один час. Однако наш аппаратный бюджет составляет всего 1,2 миллиона долларов, что в 3,4 раза меньше, чем 4,1 миллиона долларов Facebook.

У TACC есть суперкомпьютер с 4200 процессорами Intel Knights Landing KNLS под названием Stampede 2 – в конце концов, это Техас.

Также возможно снизить стоимость:

Facebook (Goyal et al. 2017) завершает обучение ImageNet 90-й эпохи с помощью ResNet-50 за один час на 32 процессорах и 256 графических процессорах NVIDIA P100 (32 станции DGX-1). Рассмотрим, что цена одной станции DGX-1 составляет 129 000 долларов США , стоимость всей системы составляет около 32×129 000 = 4,1 миллиона долларов США.

После масштабирования размера партии до 32 КБ мы можем использовать более дешевые компьютерные чипы. Мы используем 512 чипов KNL, а размер партии на KNL составляет 64. Мы также заканчиваем 90-минутную тренировку за один час. Однако стоимость нашей системы намного меньше. Версия нашего чипа KNL-процессор Intel Xeon Phi 7250, который стоит 2436 долларов США 3 . Стоимость нашей системы составляет всего около 2, 436 × 512 = 1,2 миллиона долларов США. Это самый низкий бюджет для обучения ImageNet за один час с помощью ResNet-50.

Очевидно, что нам нужны лучшие способы обучения нейронных сетей, поскольку даже при цене в 1,2 миллиона долларов стоимость слишком высока для большинства исследователей. Также ясно, что на данный момент выделенные процессоры, такие как TPU от Google, не подходят для действительно больших суперкомпьютеров, которые доступны. Теоретическое время в пять секунд для того, что в настоящее время занимает 20 минут, мучительно. 


Добавить комментарий