Вычислительная модель декодирует речь, предсказывая ее


Мозг анализирует устную речь по слогам. Ученые из Женевского университета (UNIGE) и Национального центра изучения новых языков (NCCR) разработали вычислительную модель, которая воспроизводит сложный механизм, используемый центральной нервной системой для выполнения этой операции. Модель, объединяющая две независимые теоретические основы, использует эквивалент нейронных колебаний, вызванных активностью мозга, для обработки непрерывного звукового потока связанной речи. Модель функционирует в соответствии с теорией, известной как прогнозирующее кодирование, посредством которой мозг оптимизирует восприятие, постоянно пытаясь предсказать сенсорные сигналы на основе гипотез-кандидатов (слоги в этой модели). Полученная в результате модель, описанная в журнале Nature Communications , помогла живому распознаванию тысяч слогов, содержащихся в сотнях предложений, произносимых на естественном языке. Это подтвердило идею о том, что нейронные колебания могут использоваться для координации потока слогов, которые мы слышим, с предсказаниями, сделанными нашим мозгом.

«Активность мозга вызывает нейронные колебания, которые можно измерить с помощью электроэнцефалографии», – начинает Анн-Лиз Жиро, профессор кафедры основных нейронаук медицинского факультета UNIGE и содиректор Evolving Language NCCR. Это электромагнитные волны, возникающие в результате когерентной электрической активности целых сетей нейронов. Есть несколько типов, определяемых в зависимости от их частоты. Их называют альфа-, бета-, тета-, дельта- или гамма-волнами. Взятые по отдельности или наложенные друг на друга, эти ритмы связаны с различными когнитивными функциями, такими как восприятие, память, внимание, бдительность и т. Д.

Однако нейробиологи пока не знают, вносят ли они активный вклад в эти функции и каким образом. В более раннем исследовании, опубликованном в 2015 году, команда профессора Жиро показала, что тета-волны (низкая частота) и гамма-волны (высокая частота) координируются, чтобы упорядочить звуковой поток по слогам и проанализировать их содержание, чтобы их можно было распознать.

Ученые из Женевы разработали компьютерную модель нейронной сети, основанную на этих физиологических ритмах, чья производительность в последовательности живых (онлайн) слогов была лучше, чем у традиционных систем автоматического распознавания речи.

Ритм слогов

В их первой модели тета-волны (от 4 до 8 Гц) позволяли следить за ритмом слогов, как они воспринимались системой. Гамма-волны (около 30 Гц) использовались для сегментации слухового сигнала на более мелкие срезы и их кодирования. Это создает «фонематический» профиль, связанный с каждой звуковой последовательностью, который можно апостериори сравнить с библиотекой известных слогов. Одним из преимуществ этого типа модели является то, что она спонтанно адаптируется к скорости речи, которая может варьироваться от человека к человеку.

Предиктивное кодирование

В этой новой статье, чтобы оставаться ближе к биологической реальности, профессор Жиро и ее команда разработали новую модель, в которой они включают элементы из другой теоретической основы, независимой от нейронных колебаний: «прогнозирующее кодирование». «Эта теория утверждает, что мозг функционирует так оптимально, потому что он постоянно пытается предвидеть и объяснять, что происходит в окружающей среде, используя изученные модели того, как внешние события генерируют сенсорные сигналы. В случае разговорной речи он пытается найти максимум вероятные причины звуков, воспринимаемых слухом при развертывании речи, на основе набора ментальных представлений, которые были изучены и постоянно обновляются », – говорит д-р Ицасо Оласагасти, компьютерный нейробиолог из команды Жиро, который руководил реализация новой модели.

«Мы разработали компьютерную модель, которая имитирует это прогнозирующее кодирование», – объясняет Севада Овсепян, исследователь отдела фундаментальных нейронаук и первый автор статьи. «И мы реализовали это, включив колебательные механизмы».

Проверено по 2888 слогам

Звук, входящий в систему, сначала модулируется тета (медленной) волной, которая напоминает то, что производят популяции нейронов. Дает возможность обозначить контуры слогов. Затем цепочки (быстрых) гамма-волн помогают кодировать слог по мере его восприятия. В процессе система предлагает возможные слоги и при необходимости корректирует выбор. Пройдя назад и вперед между двумя уровнями несколько раз, он обнаруживает правильный слог. Впоследствии система сбрасывается до нуля в конце каждого воспринимаемого слога.

Модель была успешно протестирована с использованием 2 888 различных слогов, содержащихся в 220 предложениях, произнесенных на естественном языке на английском языке. «С одной стороны, нам удалось объединить две очень разные теоретические основы в единую компьютерную модель», – объясняет профессор Жиро. «С другой стороны, мы показали, что нейронные колебания, скорее всего, ритмически выравнивают эндогенное функционирование мозга с сигналами, поступающими извне через органы чувств. Если мы вернем это в теорию предсказательного кодирования, это означает, что эти колебания, вероятно, позволяют мозг, чтобы сделать правильную гипотезу в нужный момент “.


Добавить комментарий