Microsoft выигрывает ImageNet, используя чрезвычайно глубокие нейронные сети


В то время как почти все остальные создают фонды и институты для дальнейшего развития ИИ, некоторые исследователи фактически продолжают этим заниматься. В этом году в конкурсе ImageNet выиграла Microsoft, что стало неожиданностью.

Это удивительно, потому что в целом именно Google создает больше всего шума об ИИ, и, по крайней мере, в массовом сознании Google опережает конкурентов. По правде говоря, все крупные компании, участвующие в гонке за распространение ИИ в массы, на самом деле просто тонко настраивают один и тот же базовый подход к проблеме — глубокую нейронную сеть.
Так как же Microsoft это сделала?
Основное соревнование ImageNet сводится именно к тому, кто сможет выдать лучший, то есть … самый низкий уровень ошибок в базе данных из 100 000 фотографий, разделенных на 1000 категорий объектов. Второстепенная задача — найти объект на картинке. Microsoft управляет уровнем ошибок 3,5% и ошибкой локализации 9%. Ранее победившая сеть Google показала аналогичный показатель по частоте ошибок, но по локализации разница была больше — 19%.

В предыдущие годы на первое место выходили нейронные сети с примерно 30 слоями. В этом году тот же подход нейронной сети дал улучшения за счет более глубокого анализа. Сеть Microsoft была действительно глубокой и состояла из 150 уровней. Для этого команде пришлось преодолеть фундаментальную проблему, связанную с обучением глубоких нейронных сетей. По мере того, как сеть получает более глубокое обучение, становится все труднее, поэтому вы сталкиваетесь с, казалось бы, парадоксальной ситуацией, когда добавление слоев ухудшает производительность.
Предлагаемое решение называется глубоким остаточным обучением. Хотя общая идея глубокого остаточного обучения мотивирована разумными предположениями, кажется, что причина, по которой оно действительно работает, все еще неясна.
Идея состоит в том, что если n-слойная сеть достаточно хорошо изучает задачу, добавление дополнительных слоев должно дать как минимум такую же хорошую производительность — потому что это то, что вы получите, если для дополнительных уровней установлено преобразование идентичности.
Предложенный метод изменил задачу обучения, чтобы упростить стандартному алгоритму обучения преобразование идентичности. Конечно, на практике маловероятно, что преобразование идентичности является оптимальным, но этот метод, похоже, работает в более общем плане и находит лучшие решения.
Процитируем статью, объясняющую работу:
«В реальных случаях маловероятно, что сопоставления идентичности являются оптимальными, но наша переформулировка может помочь предопределить проблему».
Новую архитектуру можно реализовать с использованием существующих систем, и команда исследовала даже более глубокие сети — до 1000 уровней — но результаты были не такими хорошими, вероятно, из-за переобучения. Для модели такого размера набор данных был сравнительно небольшим.
Похоже, мы вступаем в эру не только глубоких нейронных сетей, но и чрезвычайно глубоких нейронных сетей.
Одна из повторяющихся тем развития нейронных сетей, на которую часто обращал внимание Джеффри Хинтон, заключается в том, что у нас всегда был ответ. Нейронная сеть, изобретенная еще в 1970-х, была недостаточно глубокой. С тех пор каждый прорыв связан с поиском способов эффективного обучения все более глубоких сетей — и поэтому тенденция сохраняется.


Добавить комментарий