Прорыв в распознавании речи


Microsoft Research заявляет о прорыве в распознавании речи, и это очень интересно, потому что обещает распространить его на другие области.

Одна из первых попыток общего распознавания речи заключалась в использовании тогдашних новых искусственных нейронных сетей (ИНС). Они работали хорошо, но недостаточно хорошо, и медленно, но верно исследователи адаптировали методы с учетом конкретной структуры данных. Наиболее успешным подходом была скрытая марковская модель ANN (ANN-HMM), в которой использовался тот факт, что между функциями существуют корреляции. Однако этот подход нельзя было улучшить в достаточной степени, чтобы создать что-то практичное, и причина заключалась в способе обучения нейронных сетей. Это привело к тому, что нейронные сети были заменены чем-то еще более конкретным, а контекстно-зависимая модель гауссовой смеси (GMM) стала яркой надеждой на распознавание речи.
Эта замена нейронных сетей менее общими методами, более приспособленными к конкретным данным, с которыми работают, была общей чертой ИИ. Можно сказать, что интерес к ИНС резко упал. Однако в 2006 году Джеффри Хинтон и другие разработали теорию глубоких нейронных сетей (DNN). По сути, это предлагало многоуровневую структуру, в которой каждый уровень обучается по очереди, что ускоряет обучение.
Если вы хотите узнать больше о DNN, то лучшим введением будет выступление Джеффри Хинтона в Google Tech Talk в 2007 году:

Для этого нового подхода команды во главе с Донг Ю из Microsoft Research Redmond и Фрэнком Сайде из Microsoft Research Asia решили попробовать DNN для распознавания речи, но с использованием не фонем, а гораздо меньших единиц речи – сенонов. Это было опробовано со стандартными ИНС, но проблема заключалась в том, что на изучение огромного количества данных требовалось время. Фактический дизайн, использованный в новой модели, был контекстно-зависимым DNN-HMM, и это было быстрее для обучения. Реализация GPU также использовалась для ускорения работы.

Архитектура DNN

Новый подход был протестирован с использованием стандартного теста преобразования речи в текст Switchboard. После 300 часов обучения с моделью, включающей 66 миллионов соединений, результаты были замечательными. Уровень ошибок 18,5% представляет собой улучшение на 33% по сравнению с традиционными подходами к распознаванию речи независимо от говорящего.
Работа будет представлена на Interspeech 2011, но вы можете прочитать статью прямо сейчас. Хотя этот метод все еще недостаточно хорош для реального использования, улучшение производительности – большой шаг вперед в распознавании речи. Это также знаменует возврат к модели обучения нейронной сети. Похоже, что мы видим начало третьей революции нейронных сетей: первая – это однослойные модели, вторая – многослойные, а теперь у нас есть многоуровневые модели со структурированным обучением.


Добавить комментарий