Нейронные сети побеждают людей


Об очередном прорыве в области нейронных сетей сообщила компания Microsoft Research. Его нейронная сеть теперь превосходит людей по набору данных ImageNet с классом 1000.

Нейронные сети достигли потрясающих результатов за последние несколько лет, но до сих пор, когда дело доходит до визуальной классификации, люди были лучше. Ставя задачу классифицировать 100 000 тестовых изображений, люди достигают 5,1% ошибок. Теперь последняя нейронная сеть достигла 4,94%, что является значительным улучшением по сравнению с предыдущим лучшим показателем GoogLeNet в 6,66%.
Пекинская группа Microsoft Research, возглавляемая Цзян Сунь и Кайминг Хэ, – та же команда, которая применила пирамиду разрешения видения для ускорения расчета глубоких сверточных сетей. На этот раз их улучшенный результат основан на незначительной настройке. Многие нейронные сети используют нейроны-выпрямители, которые не выводят сигнал, пока не будет достигнут порог. После порога нейрон просто воспроизводит вход, т.е. он линейный. Новая идея – добавить параметр, который изменяет поведение так, чтобы выпрямитель был «мягче». Даже на участке среза его характеристики он все еще пропускает ослабленный сигнал. Это называется параметрическим выпрямленным линейным блоком (PReLU) и, кажется, делает сеть лучше за очень небольшие дополнительные вычислительные затраты – один параметр на нейрон.

Причина того, что PReLU, как ожидается, будет лучше, заключается в том, что он позволяет избежать использования нулевых градиентов в алгоритме обратного распространения – то, что, как известно, замедляет обучение. Помимо изменения дизайна, ничего больше не должно измениться, и дополнительный параметр может быть добавлен к градиентному спуску обратного распространения.
Когда они опробовали новую архитектуру, они обнаружили, что у ранних слоев была тенденция иметь большие значения a, что делало нейроны более линейными; а на более поздних стадиях – меньшие значения a, постепенно становящиеся более нелинейными. Это можно интерпретировать как модель, хранящую больше информации на ранних уровнях и делающую больше классификаций и различий на более поздних уровнях.
Второе, более техническое усовершенствование касается инициализации весов. В большинстве случаев нейронные сети инициализируются в случайном состоянии, что в некоторых случаях может сделать обучение невозможным, поскольку градиенты обучения становятся очень маленькими. Есть несколько схем, которые назначают “хорошие” случайные начальные веса, но ни одна из них не применяется к исправленным устройствам. Анализируя нейрон PReLU, вы можете прийти к рецепту хорошего случайного набора начальных весов.
В некоторых экспериментах было замечено, что новая инициализация позволяла моделям, которые не могли сходиться с исходными методами инициализации, не только сходиться, но и показывать хорошие результаты.
Объединение всего этого позволяет создавать более глубокие нейронные сети, которые быстрее обучаются. Стоит добавить, что обучение с использованием графических процессоров занимает 3-4 недели.

Вещи в сети ошиблись

Нейронные сети теперь лучше людей классифицируют изображения. Однако интересен характер преимущества. Люди хороши в общем признании – это собака или кошка – выводы приходят очень быстро, но какая порода собаки или кошки может быть за пределами возможностей человека. С другой стороны, нейронная сеть требует почти столько же усилий для изучения грубых различий, сколько и тонких различий.
Цитата из конца статьи:
Хотя наш алгоритм дает превосходный результат на этом конкретном наборе данных, это не означает, что машинное зрение превосходит человеческое зрение в распознавании объектов в целом. При распознавании элементарных категорий объектов (т. Е. Общих объектов или концепций в повседневной жизни), таких как задача Pascal VOC [6], машины по-прежнему имеют очевидные ошибки в случаях, которые тривиальны для человека. Тем не менее, мы считаем, что наши результаты демонстрируют огромный потенциал машинных алгоритмов, позволяющих сопоставить показатели визуального распознавания на человеческом уровне.
Кажется, что мы все еще живем в эпоху развития, когда почти алхимическое мастерство приносит свои плоды. Кажется, мы обнаружили, что нейронные сети действительно работают, но мы все еще не уверены, что именно работает лучше всего.

Сеть правильно поняла – большинство людей просто видят собаку.


Добавить комментарий