Люцида для личного искусственного интеллекта


Команда исследователей Clarity Labs из Мичиганского университета в прошлом году попала в заголовки газет, выпустив свой собственный IPA (Intelligent Personal Assistant) под названием Sirius. Многие ошибочно считали Sirius версией Siri от Apple с открытым исходным кодом, но это было не так, поскольку эти два проекта совершенно не связаны. Может быть, это одна из причин ребрендинга Сириуса на Люциду.

Как сказал Джереми Рассел, член основной команды:
Когда Sirius был запущен, это был скорее прототип для исследования того, какие аппаратные платформы лучше всего подходят для IPA (интеллектуального персонального помощника), и казалось, что ребрендинг будет хорошей идеей, если будет решено сосредоточиться на ИИ. сама платформа

Чтобы полностью понять это утверждение, необходимо немного истории. Первоначально проект Sirius был основан для облегчения сравнительного анализа и расширения исследований будущих серверных архитектур, способных справиться с астрономической рабочей нагрузкой, которую облачные платформы поддерживают Машинное обучение как услугу, на которых все IPA (Siri от Apple, Google Now от Google, Cortana от Microsoft или Amazon’s Echo) полагаются, попадают под.
По мере того, как текущие архитектуры центров обработки данных достигают своих вычислительных возможностей, Сириус выступает с совершенно новым предложением. Чтобы центры обработки данных продолжали выполнять свою работу, но без необходимости наращивать объемы оборудования, они могут сделать это, используя высокооптимизированные и специализированные алгоритмы.

Люцида, однако, стремится быть чем-то большим и выходит за рамки того, чего достиг Сириус. Построенный на основе Сириуса, он превратился в следующего, более умного. поколение с учетом модульности и расширяемости.
Он по-прежнему остается поставщиком услуг распознавания речи, сопоставления изображений, обработки естественного языка и ответов на вопросы, но благодаря недавно обнаруженной модульности теперь он может поддерживать все или любые из своих основных компонентов, автоматическое распознавание речи (ASR), Image Matching (IMM) или вопросно-ответная система (QA), которая должна быть изменена или полностью заменена компонентами, изготовленными на заказ.
Скажем, например, что исследователь придумал свой собственный механизм распознавания речи, теперь он может просто заменить компонент ASR Lucida своим собственным, чтобы он по-прежнему использовал преимущества остальных компонентов внутреннего интерфейса Lucida. Или, в другом случае, когда его может не интересовать компонент Image Matching, он может удалить его и вместо этого работать с голой версией Lucida. Попытка описать рабочий процесс Люциды в предложении будет такой:
Люцида обрабатывает запросы в форме речи или изображений и отвечает на естественном языке, точно так же, как поручает задачу помощнику-человеку.
Ярким подтверждением этого факта является следующий рекламный видеоролик, в котором оператор-человек разговаривает с планшетом с питанием от Lucida и задает ему ряд вопросов на естественном языке:
Кто автор Джеймса Бонда? чтобы получить ответ Яна Флемминга
Следующие два вопроса,
Когда было IPO Google? »(!)
с последующим
Кто изобрел арахисовое масло?
подчеркните гибкость движка в интерпретации вопросов, не зависящих от предметной области.

Но это еще не все, так как головокружительный момент видео еще не наступил, когда исследователь подарил Люциде фотографию падающей Пизанской башни и спросил ее высоту. Это гигантская задача для любого компьютера, потому что он сначала должен идентифицировать здание, анализировать и понимать устный запрос, переводить его в формат, понятный серверной базе данных, а затем получать ответ и реструктурировать его на естественном языке для пользователя. чтобы понять. Мы уже исследовали такой подход, при котором пилоты-люди общаются и координируют свои действия с ИИ-Wingman на понятном для человека языке, что является жизненно важным инструментом в разгар воздушного боя.

Технически говоря
Люцида образована слиянием трех отдельных и автономных компонентов:
Компонент автоматического распознавания речи (ASR), который использует модель гауссовой смеси и / или оценку глубокой нейронной сети, поддерживается серверной частью глубокой нейронной сети обработки сигналов и поддерживает несколько наборов инструментов распознавания речи: Kaldi (на основе скрытой модели Маркова глубокой нейронной сети) , Pocketsphinx и Sphinx4 (на основе модели гауссовой смеси — скрытой марковской модели).
Компонент Image Matching (IMM), который использует методы извлечения признаков (FE) и описания функций (FD), поддерживается серверной частью DNN обработки изображений и использует SURF, класс библиотеки программного обеспечения компьютерного зрения и машинного обучения OpenCV, для извлечения ускоренных и надежных функций из изображения и использования их в качестве запросов к базе данных.
Вопросно-ответная система (QA), (регулярное выражение / регулярное выражение, определение корней слов / Stemmer и условные случайные поля / теги CRF), поддерживается серверной частью DNN обработки естественного языка и использует OpenEphyra, платформу Java, независимую от платформы для ответы на вопросы, а также база данных Википедии, хранящаяся в формате Индри Лемура. Вот как Люцида могла ответить на вопрос, насколько высока Пизанская башня; она нашла его во встроенной базе данных Википедии.
Эти серверные части DNN вместе с 7 зависимыми приложениями были объединены под эгидой Deep Learning-As-A-Service, которая сформировалась в пакетах DjINN и Tonic.
Таким образом, пакет Tonic представляет собой набор приложений, которые принимают ряд задач, будь то
Задачи, связанные с обработкой изображений:
• Классификация изображений (IMC) • Распознавание лиц (FACE) • Распознавание цифр (DIG)
Задачи, связанные с обработкой речи:
• Автоматическое распознавание речи (ASR)
Задачи, связанные с обработкой естественного языка:
• Тегирование части речи (POS) • Разделение на части (CHK) • Распознавание сущности имени (NER)
все они получены из запросов, предоставленных пользователем.
Затем приложения вызывают веб-службу DNN, чтобы переслать ей запрос, который будет принимать его оттуда, обрабатывать запрос и отвечать в формате естественного языка.
Гибкость системы заключается в том, что вы можете смешивать и сопоставлять эти службы для разработки конвейерных приложений. Например, вы можете объединить службы ASR и QA или все ASR + IMM + QA, чтобы получить что-то вроде фотографирования ресторана и спрашивает Люциду Во сколько закрывается этот ресторан, чтобы Люцида могла быстро ответить в 8 часов.
Вы можете легко увидеть, к чему это ведет. Носимые или мобильные устройства, имеющие более близкие отношения со своими владельцами, зная их секреты, привычки и вещи, чтобы они могли отвечать не только на общие вопросы, например, где находится ближайшая станция метро, но и на личные, например, сколько фунтов у меня багажник на крыше ?, согласно рекламному видео, или наиболее существенный и потенциально спасающий жизнь вопрос, когда моя жена задает вопрос о дне рождения (каламбур).
Конечно, аспект конфиденциальности и безопасности — это большая проблема, относящаяся ко всем устройствам IoT, которые до сих пор остаются не полностью удовлетворенными (хотя инфраструктура Blockchain Биткойна выглядит как хранящая ключ, но это тема для другого раза).
Начиная с сегодняшнего дня, Lucida предлагается миру в качестве облачной платформы, как IBM Watson Developer Cloud и Hewlett Packard’s Haven OnDemand, любезно предоставленные Мичиганским университетом и Clinc, компанией, специально созданной для этой цели.
Идея здесь состоит в том, чтобы предоставить API-интерфейсы для серверной части DNN, которая даст возможность любому создавать интеллектуальные приложения Personal Assistant, что подчеркивает новую тенденцию нашего времени; что машинное обучение и ИИ достигли статуса предмета торговли. выглядит просто свирепо …


Добавить комментарий