Google Open Sources Accurate Parser — Парси МакПарсфейс


Во многих новостях много говорится о том, что английский синтаксический анализатор Google назван «Parsey McParseface», но здесь происходит серьезный ИИ, а также своего рода шутка.

В наши дни мы склонны думать, что есть только один разумный подход к ИИ — сквозные глубокие нейронные сети, в которых вы помещаете необработанные данные на одном конце, и вы получаете ответ, который вам нужен. Однако есть и другие, более «структурированные» подходы. Например, вы можете решить проблему понимания языка с помощью сквозного подхода, просто вводя слова и надеясь, что смысл проявится. С другой стороны, существует давняя традиция анализа языка с помощью грамматики. В этом случае вы берете языковой блок и разбиваете его на предложения, а затем предложения на существительные, глаголы и другие части речи.
Поиск грамматической структуры языка обычно называется синтаксическим анализом, отсюда и название синтаксического анализатора английского языка Google — Parsey McParseface — и если вы не знаете, откуда взялась эта странная конструкция, вы пропустили недавнюю полемику по поводу наименования британского исследовательского корабля. В хорошем демократическом стиле его имя было вынесено на общественное голосование, и победителем стал Боути Макбоутфейс. В полном пренебрежении к демократии корабль был назван «Сэр Дэвид Аттенборо». Я полагаю, вы могли бы сказать, что Google назвал синтаксический анализатор в честь инцидента с Боути Макбоатфейсом, но вы также можете просто посчитать это еще одним примером плохого именования проектов с открытым исходным кодом.
Переходим к собственно коду, вот что действительно важно. Парси МакПарсфейс считается самой точной лингвистической моделью в мире. Как вы могли догадаться, задействована нейронная сеть, даже если это традиционный подход синтаксического анализа к пониманию языка. Еще вы могли догадаться, что SyntaxNet была построена с использованием TensorFlow, фреймворка Google с открытым исходным кодом для всех видов параллельных вычислений.

Разбор в действии

Нейронная сеть обучается путем применения предложений с точными последовательностями синтаксического анализа. При использовании для синтаксического анализа предложения слова отображаются по одному, а возможные синтаксические разборы, по оценке сети, сохраняются. По мере добавления слов лучший синтаксический анализ изменяется, а кандидаты отбрасываются. Если это звучит просто, запомните, о чем говорится в блоге:
«Для предложений средней длины — скажем, 20 или 30 слов — не редкость иметь сотни, тысячи или даже десятки тысяч возможных синтаксических структур».
Нейронная сеть используется для уменьшения этого огромного количества возможных вариантов до меньшего числа вероятных кандидатов.

Два правильных анализа, но только один соответствует реальному миру.
Если, посмотрев на диаграмму, вы не видите неправильной интерпретации, подумайте о том, что ее машина проезжает по улице!
Парси МакПарсфейс — обученный пример SyntaxNet. Вы можете использовать его для синтаксического анализа английских текстов и можете обучить SyntaxNet создавать свой собственный специализированный синтаксический анализатор. Parsey, если использовать его первое имя, хорош в зависимостях между словами, достигая точности 94%, что лучше, чем у предыдущих современных систем, и приближается к человеческим возможностям при работе с хорошо сформированным текстом. На менее хорошо сформированном тексте достигается точность 90%.
Утверждается, что этого достаточно для использования в реальных приложениях. Ошибки, которые он делает, вероятно, потребуют нейронной сети, работающей на уровне, отличном от синтаксического анализа, потому что они зависят от знаний реального мира, чтобы исправить это.
Для чего вы можете его использовать?
Хотя синтаксический анализ не дает вам смысла предложения, он помогает понять смысл. Чтобы знать субъект, объект и глагол в предложении, вы можете написать бота, который правильно реагирует на команды. Его также можно использовать для извлечения информации из новостей и других текстовых данных. Однако вам предстоит еще много работы, чтобы любое из этих приложений работало убедительно. Синтаксис — это только руководство по семантике.


Добавить комментарий