Почти мгновенный перевод речи вашим собственным голосом


Похоже, что тенденция к развитию искусственного интеллекта на основе нейронных сетей меняется. Он собирается перейти из лаборатории в реальный мир. Microsoft Research продемонстрировала перевод речи на другой язык в реальном времени с интонациями первоначального говорящего.

Если вы поклонник «Автостопом», то это Вавилонская рыба; Если вам больше по душе «Звездный путь», то это Универсальный переводчик.
Несколько месяцев назад Microsoft Research продемонстрировала систему, которая может переводить с одного языка на другой и имитировать голос говорящего. Как будто действительно можно говорить на новом языке. Единственным недостатком было то, что язык ввода нужно было вводить с клавиатуры. Теперь была продемонстрирована система, которая берет устное слово и превращает его в ваш голос на другом языке.

Демонстрация была проведена в Тяньцзине, Китай, на мероприятии Microsoft Research Asia 21st Century Computing. По какой-то причине он не был официально записан, но предприимчивому участнику аудитории удалось его запечатлеть, и это видео недавно появилось на YouTube. Теперь Microsoft Research подключилась к делу и опубликовала запись в блоге, в которой он содержится. Это поднимает вопрос, почему они вообще не сделали этого больше.
Этот метод использует наиболее успешный подход к распознаванию речи — скрытые марковские модели — в сочетании с новым подходом, предлагаемым глубокими нейронными сетями. Нейронные сети увеличили производительность на 30%, примерно до одной ошибки в восьми словах.

Часть системы перевода такая же, как и в Bing translate, то есть статистический подход. Демонстрация показывает, как ведущий Рик Рашид, главный исследователь Microsoft, переводит текст на китайский язык. На следующем этапе голос преобразуется в разговорный китайский. Публика вроде бы одобряет, но лично, не будучи говорящим по-китайски, не только невозможно проверить перевод, но и сложно понять, сохранились ли качества голоса говорящего. Как говорится в блоге:
«Хотя это был ограниченный тест, эффект был впечатляющим, и аудитория ожила в ответ. Когда я говорил по-английски, система автоматически объединила все лежащие в основе технологии, чтобы преобразовать речь в речевой опыт — мой голос говорил по-китайски. можете увидеть демонстрацию на видео выше.
Результаты все еще не идеальны, и предстоит еще много работы, но технология очень многообещающая, и мы надеемся, что через несколько лет у нас будут системы, которые смогут полностью преодолеть языковые барьеры ».
Есть много вопросов о системе без ответов, в частности о том, сколько компьютерной мощности требуется для выполнения этой работы. Нейронные сети, вероятно, обходятся дешево в вычислении, но вся система по-прежнему, вероятно, будет сложной. Возможно, нам еще далеко до того, чтобы вставить электронный эквивалент рыбы вам в ухо (вавилонскую рыбу) или установить универсальный переводчик в ваш телефон, но у нас есть доказательства того, что это более чем возможно.

Оригинальные анимационные работы Рода Лорда


Добавить комментарий