Как заставить ИИ работать на 22 языках


Винит Савант последние два года колесил по улицам Мумбаи на скутере, работая водителем-доставщиком.

«Находиться в дороге всегда очень напряженно, особенно в таких городах, как Мумбаи», — говорит он.

Технологии перевода облегчили работу Винита Саванта
Технологии перевода облегчили работу Винита Саванта

Но когда он начинал, языковой барьер стал дополнительной проблемой.

Его родной язык — маратхи, а Савант говорит по-английски «совсем немного». «Я понимаю, но читать очень сложно», — объясняет он.

Это создавало проблемы на его новой работе.

Он рассказал: «Поначалу было сложно. Всё было на английском, и я кое-что понимаю, но на маратхи мне комфортнее. Я просил других курьеров помочь мне разобраться, что делать».

Его работодатель, компания Zepto, обещает «самую быструю в Индии онлайн-доставку продуктов». Поэтому водители, испытывающие трудности с инструкциями по доставке, были не самым лучшим решением.

Чтобы упростить этот процесс, год назад Zepto заключила партнерское соглашение с Reverie Language Technologies, чтобы внедрить для своих водителей сервис перевода на основе искусственного интеллекта.

С тех пор водители доставки могут выбирать между шестью языками в приложении Zepto.

«Мне больше не нужно гадать», — говорит Савант.

«Раньше я тратил больше времени на чтение и иногда даже ошибался. Теперь, если клиент пишет «позвонить в звонок», я получаю инструкцию на маратхи. Так что мне не нужно переспрашивать или перепроверять. Всё понятно».

В Индии 22 официальных языка и сотни диалектов
В Индии 22 официальных языка и сотни диалектов

Проблемы Саванта — обычное дело.

«В Индии 22 официальных языка и сотни диалектов», — говорит профессор Пушпак Бхаттачарья из Индийского технологического института Мумбаи, один из ведущих индийских экспертов по использованию ИИ в индийских языках.

«Без технологий, которые понимают и говорят на этих языках, миллионы людей исключены из цифровой революции, особенно в сфере образования, государственного управления, здравоохранения и банковского дела», — отмечает он.

Внедрение новых систем генеративного ИИ, таких как ChatGPT, сделало эту задачу ещё более актуальной.

Для обучения ИИ используются огромные объёмы данных, таких как веб-страницы, книги или видеотрансляции.

Для широко распространённых языков, таких как хинди и английский, это относительно легко получить, но для других это сложнее.

«Главная проблема создания моделей индийского языка — это доступность данных. Я говорю об уточнённых данных. Данные грубого качества доступны. Но эти данные не очень высокого качества, их необходимо фильтровать», — говорит профессор Бхаттачарья.

«Проблема в Индии заключается в том, что для многих индийских языков, особенно племенных и региональных диалектов, таких данных просто нет или они не оцифрованы».

Компания Reverie Language Technologies в настоящее время внедряет свою технологию перевода на основе искусственного интеллекта для ряда индийских компаний.

Соучредитель компании Вивекананда Пани говорит, что, хотя технологии перевода облегчат общение, существует «потенциал вытеснения менее распространённых диалектов».

«Задача будет заключаться в том, чтобы гарантировать, что удивительные преимущества развития языков на основе искусственного интеллекта не приведут к непреднамеренному сокращению богатого многообразия человеческих языков».

Чтобы помочь решить эту проблему, профессор Бхаттачарья внес свой вклад в Bhashini — государственный проект по разработке высококачественных наборов данных, необходимых для обучения ИИ.

Помимо наборов данных, Bhashini разработала языковые модели ИИ и сервисы перевода на 22 языка.

Проект, запущенный в 2022 году, — это масштабная задача, которая уже добилась значительного прогресса.

В настоящее время Bhashini обслуживает 350 языковых моделей на основе ИИ, которые обработали более миллиарда задач.

С Bhashini сотрудничают более 50 государственных ведомств, а также правительства 25 штатов.

Например, технологии Bhashini используются в многоязычных чат-ботах для государственных услуг и для перевода государственных документов на местные языки.

«Bhashini обеспечивает языковое и культурное представительство Индии, создавая специфичные для Индии модели искусственного интеллекта, а не полагаясь на глобальные платформы», — говорит Амитабх Наг, генеральный директор DigitalIndia, подразделения Bhashini.

Он надеется, что в течение следующих двух-трёх лет жители сельской местности получат голосовой доступ к государственным услугам, финансовым инструментам и информационным системам на своих родных языках.

Индийские исследователи разрабатывают ИИ, который поможет бросить курить
Индийские исследователи разрабатывают ИИ, который поможет бросить курить

Эти наборы данных, ориентированные на Индию, как мы надеемся, однажды предоставят разработчикам моделей на основе ИИ инструменты, которые значительно упростят их адаптацию для всего населения.

В настоящее время разработка любой программы на основе ИИ для решения таких сложных задач, как здравоохранение, может быть чрезвычайно сложной задачей.

Кшитидж Джадхав, доцент Центра цифрового здравоохранения Коита при Индийском технологическом институте Мумбаи, работает над программой на основе ИИ, которая поможет людям бросить курить.

Он объясняет, что людям на разных этапах процесса требуются разные советы, и обычно для проведения такой оценки требуется хорошо обученный специалист.

Однако число специалистов, способных помочь, ограничено, особенно тех, кто владеет несколькими языками, поэтому профессор Джадхав надеется, что его модель ИИ сможет преодолеть этот разрыв.

ИИ «сначала определит, какой тип разговора нужен человеку, и соответственно сформулирует вопросы, проявит сочувствие и эмоции», — говорит профессор Джадхав.

И всё это, как мы надеемся, в конечном итоге будет реализовано на 22 языках. Первые эксперименты проводятся на английском и хинди.

«Это будет очень индивидуально, это не будет чем-то стандартным», — говорит он.

Вернувшись на улицы города, Винит Савант увеличил количество доставляемых им посылок с десяти до примерно 30 в день, чему отчасти способствовала функция перевода в приложении доставки.

Он считает, что это поможет большему числу таких же, как он.

«Это даёт нам чувство принадлежности. Не все понимают английский. Когда приложение говорит на нашем языке, мы чувствуем себя увереннее и работаем лучше».


Добавить комментарий