Речевой API W3C – Инициатива Google


Недавно была опубликована спецификация API веб-речи вместе с призывом к окончательным обязательствам по спецификации от членов группы сообщества W3C Speech API. 

Спецификация предназначена для API JavaScript, который позволит веб-разработчикам включать сценарии в свои веб-страницы, которые могут генерировать вывод текста в речь и использовать распознавание речи в качестве входных данных для форм, непрерывной диктовки и управления.

Группа инкубатора речи HTML была первоначально сформирована в августе 2010 года с участием инициаторов из Microsoft, Google, Voxeo, AT&T, Mozilla и openStream. Предложения по спецификациям API были сделаны Google и Microsoft.

В декабре 2011 года она подготовила Заключительный отчет группы инкубатора речи HTML с изложением вариантов использования, разработанных группой, и требований, упорядоченных по приоритетности интересов членов группы, а также содержала предварительное предложение по API JavaScript и связанным с ним привязкам HTML.

На этой диаграмме из отчета показано, какие элементы будут входить и выходить за рамки для окончательного решения задачи, которую начала группа:

(нажмите, чтобы увеличить)

В течение двух недель после этого отчета Google выступил с предложением о спецификации API JavaScript для речи, которая поддерживала 15 из 17 вариантов использования, определенных в итоговом отчете группы HTML Speech Incubator.

Голосовой Веб-поиск

Интерфейс речевых команд

Специфичные для домена грамматики, зависящие от более ранних входных данных

Непрерывное распознавание открытого диалога

Доменные Грамматики, Заполняющие Несколько Полей Ввода

Речевой пользовательский интерфейс присутствует, когда нет необходимости в видимом пользовательском интерфейсе

Обнаружение голосовой активности

Привет, Мир

Перевод речи

Почтовый клиент с поддержкой речи

Диалоговые системы

Мультимодальное Взаимодействие

Речевые Направления Движения

Мультимодальная Видеоигра

Мультимодальный Поиск

Оставшиеся два были опущены, чтобы свести API к минимуму:

Повторное признание

Временная структура синтеза для обеспечения визуальной обратной связи

В апреле 2012 года была создана Группа сообщества Speech API для продолжения работы над этой спецификацией. Он возглавляется Гленом Ширсом из Google, который является одним из редакторов проекта Speech API, и имеет пять других членов Google, а также представителей W3C, Фонда Всемирной паутины, Mozilla, OpenReach и некоторых других. Его спецификация API веб-речи была отредактирована Гленом Ширсом и Хансом Веннборгом также из Google.

На данный момент спецификация API не имеет статуса стандарта W3C и не находится на пути стандартов W3C. До сих пор только член группы сообщества Speech API Google взял на себя обязательства по спецификации веб-речи. Chrome – единственный браузер, в котором есть API речи-будем надеяться, что другие последуют за ним, и у нас будет стандарт, а не беспорядок. 


Добавить комментарий