Глубокое обучение Google — распознавание речи


Происходит революция, и, кажется, никто не обращает на нее особого внимания. Революция основана на глубоком обучении и возрождает использование нейронных сетей, но на этот раз для решения реальных проблем — и одним из лидеров гонки является Google.

Нейронные сети долгое время казались правильным решением проблемы искусственного интеллекта. Они являются аналогом того, что делает человеческий мозг, и все они учатся самостоятельно. Чтобы сделать нейронную сеть полезной, вам нужно лишь обучить ее. Это должен быть правильный путь вперед, но все же была проблема — идеи не очень хорошо работали на практике. На самом деле произошло то, что вы потратили часы обучения, чтобы получить сеть, которая усвоила то, что вы ей рассказали, но она выполняла свою работу хорошо только в том случае, если вы потратили много времени на ее настройку. Нейронные сети работали, но в большинстве случаев недостаточно хорошо.
Теперь выясняется, что они, вероятно, работали все время, но мы делали что-то неправильно, и у нас не было четкого представления о необходимом масштабе. Чтобы нейронные сети выполнили свое обещание, вам нужно сначала дать некоторую глубокую структуру, а не полагаться на случайную или упрощенную архитектуру. Затем вам нужно обучить большие системы с большими данными. До недавнего времени найти достаточно данных в правильной форме и найти большие объемы компьютерной мощности для обучения было сложной задачей. Проблема данных была облегчена ростом Интернета, а проблема вычислений — развитием облачных вычислений.
В результате нейронные сети начинают работать как никогда раньше.
Google недавно сделал несколько заголовков о работе, которая заключалась в том, чтобы позволить глубокой нейронной сети самоучиться, что такое лицо. К сожалению, данные были получены из видеокадров с YouTube, и, как и следовало ожидать, сеть также научилась распознавать морды кошек. Как вы также можете догадаться, это привело к появлению заголовков об искусственном интеллекте и видео про котят, а не о «прорыве в искусственном интеллекте».

Недавний блог Google начинается с:
«New York Times недавно опубликовала статью о крупномасштабном проекте Google по глубокому обучению, который учится обнаруживать закономерности в больших наборах данных, включая … кошек на YouTube! Какой смысл создавать гигантский детектор кошек, спросите вы?»
Печально, правда?
Далее объясняется, как те же методы привели к созданию нейронной сети, которую вы вполне могли бы использовать сейчас, предполагая, что у вас есть Android, на котором работает Jellybean.
«С запуском последней версии платформы Android, Jelly Bean, мы сделали значительный шаг на пути к тому, чтобы сделать эту технологию полезной: когда вы разговариваете со своим телефоном Android, скорее всего, вы разговариваете с нейронной сетью, обученной распознавать вашу речь. . »
Если вам нужна предыстория, вам нужно обратиться к обзорной статье Джеффри Хинтона и др. в Университете Торонто, который в настоящее время находится в печати.
Раньше нейронные сети использовались для распознавания речи, но они никогда не развивались до практической точки зрения. После первоначального всплеска активности наступил 20-летний период засухи, когда взяли на себя другие, более специальные и специально разработанные подходы. Теперь с помощью гораздо большего доступного хранилища аудио и вычислительных средств, таких как Google Compute Engine, все это изменилось.
Нейронные сети, которые применялись для решения задач распознавания речи, обычно были небольшими с одним слоем нейронов. Сегодняшние многоуровневые сети решают эту проблему намного лучше благодаря помощи новых алгоритмов глубокого обучения, которые работают послойно через сеть. Чтобы дать вам некоторое представление о размере задачи — сеть использовала четыре уровня по 2500 узлов на каждом уровне. Данные были получены из 6000 часов записанных данных голосового поиска и 1400 часов с YouTube. Большая часть работы была проделана в кластере Google с использованием алгоритма сопоставления / сокращения. Результатом стало увеличение точности на 20% по сравнению с другими методами.
Документ об исследовании должен быть представлен на Interspeech 2012 в сентябре, но уже есть отчет Университета Торонто, соавторами которого являются Навдип Джейтли и исследователи Google Патрик Нгуен, Эндрю Сеньор и Винсент Ванхаук, в котором вы можете скачать некоторые из детали.
Это захватывающее время для искусственного интеллекта, а не только для котят.


Добавить комментарий