Представляем DeepSpeech


DeepSpeech 0.7.0 – это последняя версия движка преобразования речи в текст с открытым исходным кодом Mozilla. Он был выпущен на этой неделе вместе с новыми акустическими моделями, обученными на американском английском, и новым форматом обучающих данных, который должен быть быстрее.

DeepSpeech 0.7.0, реализация TensorFlow архитектуры Baidu DeepSpeech, находится на переднем крае технологии автоматического распознавания речи, но в значительной степени остается незамеченной.
Фактически это проект с открытым исходным кодом, над которым Mozilla работает с 2016 года. Его выпуск 0.1.0 был в ноябре 2017 года, и к тому времени, когда мы впервые сообщили о нем, когда в декабре 2019 года была выпущена версия 0.6.0, он уже видел пять обновления, в соответствии с семантическим управлением версиями, были обратно несовместимы, как и последний выпуск.

Итак, откуда возник DeepSpeech и как он вписывается в текущие усилия Mozilla Research в области речи и машинного обучения?
Согласно документации проекта, его цель – создать простой, открытый и повсеместный движок распознавания речи.

Просто в том смысле, что для работы движку не требуется аппаратное обеспечение серверного класса.
Открытый, поскольку код и модели выпущены под общественной лицензией Mozilla.
Повсеместно в том смысле, что движок должен работать на многих платформах и иметь привязку ко многим различным языкам.

Архитектура движка изначально была основана на архитектуре, разработанной Baidu и представленной в документе 2014 года Deep Speech: масштабирование сквозного распознавания речи. С тех пор он во многих отношениях отличается от движка, которым он был мотивирован, и ядром движка является рекуррентная нейронная сеть (RNN), обученная принимать спектрограммы речи и генерировать транскрипции английского текста.

DeepSpeech состоит из двух основных подсистем: акустической модели и декодера. Акустическая модель – это глубокая нейронная сеть, которая принимает звуковые характеристики в качестве входных данных и выводит вероятности символов. Декодер использует алгоритм поиска луча для преобразования вероятностей символов в текстовые расшифровки, которые затем возвращаются системой.
Используемые образцы речи взяты из проекта Mozilla, с которым мы столкнулись в начале 2019 года – Common Voice, описанного как проект «голосового пожертвования» для улучшения виртуальных помощников.
Firefox нуждается в таких технологиях, как DeepSpeech, чтобы не отставать от Google Chrome, Google Home и Alexa. Одна из наиболее частых причин отказа от использования Firefox заключается в том, что в Chrome есть такие услуги, как перевод. Mozilla действительно нужно побороться с ИИ с открытым исходным кодом.
Подробную информацию о DeepSpeech 0..7.0 и заметных изменениях по сравнению с предыдущей версией можно найти в его репозитории на GitHub вместе с исходным кодом и двумя акустическими моделями.


Добавить комментарий