Новый инструмент для распознавания голоса на основе ИИ обучен копировать британские региональные акценты

Новый инструмент для клонирования голоса на основе ИИ от британской компании, как утверждается, способен воспроизводить ряд британских акцентов точнее, чем некоторые из её американских и китайских конкурентов.

Поскольку большая часть данных, традиционно используемых для обучения продуктов ИИ с использованием голосов, поступает из североамериканских или южноанглоязычных источников, многие искусственные голоса, как правило, звучат похоже.

Молодая женщина в оранжевой куртке разговаривает по мобильному телефону.

Чтобы решить эту проблему, компания Synthesia потратила год на создание собственной базы данных британских голосов с региональными акцентами, записывая людей в студиях и собирая онлайн-материалы.

Эти данные были использованы для обучения продукта Express-Voice, который может клонировать голос настоящего человека или генерировать искусственный голос.

Эти данные можно использовать в таких материалах, как обучающие видео, материалы для поддержки продаж и презентации.

Компания заявила, что её клиенты хотели бы получить более точную передачу региональных акцентов.

«Если вы генеральный директор компании или просто обычный человек, то, имея сходство, вы хотите сохранить акцент», — сказал руководитель исследований Synthesia Юсеф Алами Меджати.

Он добавил, что франкоговорящие клиенты также отмечали, что синтетические французские голоса, как правило, звучат как франкоканадские, а не как голоса французов.

«Это связано с тем, что компании, создающие эти модели, как правило, североамериканские, и их наборы данных, как правило, ориентированы на демографическую группу, с которой они работают», — сказал он.

Меджати отметил, что самые сложные для имитации акценты — это наименее распространённые, поскольку для обучения модели ИИ доступно меньше записей.

Также сообщается, что продукты с голосовыми подсказками на базе ИИ, такие как умные колонки, с большей вероятностью испытывают трудности с пониманием различных акцентов.

В прошлом году внутренние документы полиции Уэст-Мидлендса выявили опасения по поводу того, сможет ли система распознавания голоса распознавать акценты жителей Бирмингема.

Тем временем американский стартап Sanas придерживается противоположного подхода, разрабатывая инструменты для внедрения в колл-центрах, которые «нейтрализуют» акценты индийских и филиппинских сотрудников, как сообщало агентство Bloomberg в марте.

Компания заявляет, что её цель — снизить «дискриминацию по акценту», с которой сталкиваются сотрудники, когда звонящие их не понимают.

Исчезающие языки и диалекты

Существует обеспокоенность тем, что в цифровую эпоху языки и диалекты исчезают.

«По данным ЮНЕСКО, из более чем семи тысяч языков, существующих сегодня, почти половина находится под угрозой исчезновения; около трети имеют некоторое присутствие в интернете; менее 2% поддерживаются Google Translate; а, согласно собственному тестированию OpenAI, только пятнадцать, или 0,2%, поддерживаются GPT-4 [моделью OpenAI] с точностью выше 80%», — пишет Карен Хао в книге «Империя ИИ».

«Языковые модели унифицируют речь», — соглашается эксперт по ИИ Генри Айдер, консультирующий государственные органы и технологические компании, включая Synthesia.

Однако чем лучше становятся эти продукты, тем эффективнее они становятся в руках мошенников.

Продукт Synthesia, который выйдет в ближайшие недели, не будет бесплатным и будет иметь ограничения на разжигание ненависти и материалы непристойного характера.

Однако уже существует множество бесплатных инструментов для клонирования голоса с открытым исходным кодом, которые легко доступны и менее защищены.

В начале июля сообщалось о том, что министрам были отправлены сообщения, сгенерированные клонированным с помощью искусственного интеллекта голосом, выдававшим себя за госсекретаря США Марко Рубио.

«За последние девять-двенадцать месяцев сфера открытого исходного кода для голосового управления претерпела стремительные изменения», — добавляет Айдер.

«И это, с точки зрения безопасности, вызывает серьёзную озабоченность».

Max Home Industry

разработка программного обеспечения

Новый инструмент для распознавания голоса на основе ИИ обучен копировать британские региональные акценты

Исчезающие языки и диалекты

Похожее

Добавить комментарийОтменить ответ

Исчезающие языки и диалекты

Поделиться ссылкой:

Похожее

Добавить комментарийОтменить ответ