Новый инструмент для клонирования голоса на основе ИИ от британской компании, как утверждается, способен воспроизводить ряд британских акцентов точнее, чем некоторые из её американских и китайских конкурентов.
Поскольку большая часть данных, традиционно используемых для обучения продуктов ИИ с использованием голосов, поступает из североамериканских или южноанглоязычных источников, многие искусственные голоса, как правило, звучат похоже.
Чтобы решить эту проблему, компания Synthesia потратила год на создание собственной базы данных британских голосов с региональными акцентами, записывая людей в студиях и собирая онлайн-материалы.
Эти данные были использованы для обучения продукта Express-Voice, который может клонировать голос настоящего человека или генерировать искусственный голос.
Эти данные можно использовать в таких материалах, как обучающие видео, материалы для поддержки продаж и презентации.
Компания заявила, что её клиенты хотели бы получить более точную передачу региональных акцентов.
«Если вы генеральный директор компании или просто обычный человек, то, имея сходство, вы хотите сохранить акцент», — сказал руководитель исследований Synthesia Юсеф Алами Меджати.
Он добавил, что франкоговорящие клиенты также отмечали, что синтетические французские голоса, как правило, звучат как франкоканадские, а не как голоса французов.
«Это связано с тем, что компании, создающие эти модели, как правило, североамериканские, и их наборы данных, как правило, ориентированы на демографическую группу, с которой они работают», — сказал он.
Меджати отметил, что самые сложные для имитации акценты — это наименее распространённые, поскольку для обучения модели ИИ доступно меньше записей.
Также сообщается, что продукты с голосовыми подсказками на базе ИИ, такие как умные колонки, с большей вероятностью испытывают трудности с пониманием различных акцентов.
В прошлом году внутренние документы полиции Уэст-Мидлендса выявили опасения по поводу того, сможет ли система распознавания голоса распознавать акценты жителей Бирмингема.
Тем временем американский стартап Sanas придерживается противоположного подхода, разрабатывая инструменты для внедрения в колл-центрах, которые «нейтрализуют» акценты индийских и филиппинских сотрудников, как сообщало агентство Bloomberg в марте.
Компания заявляет, что её цель — снизить «дискриминацию по акценту», с которой сталкиваются сотрудники, когда звонящие их не понимают.
Исчезающие языки и диалекты
Существует обеспокоенность тем, что в цифровую эпоху языки и диалекты исчезают.
«По данным ЮНЕСКО, из более чем семи тысяч языков, существующих сегодня, почти половина находится под угрозой исчезновения; около трети имеют некоторое присутствие в интернете; менее 2% поддерживаются Google Translate; а, согласно собственному тестированию OpenAI, только пятнадцать, или 0,2%, поддерживаются GPT-4 [моделью OpenAI] с точностью выше 80%», — пишет Карен Хао в книге «Империя ИИ».
«Языковые модели унифицируют речь», — соглашается эксперт по ИИ Генри Айдер, консультирующий государственные органы и технологические компании, включая Synthesia.
Однако чем лучше становятся эти продукты, тем эффективнее они становятся в руках мошенников.
Продукт Synthesia, который выйдет в ближайшие недели, не будет бесплатным и будет иметь ограничения на разжигание ненависти и материалы непристойного характера.
Однако уже существует множество бесплатных инструментов для клонирования голоса с открытым исходным кодом, которые легко доступны и менее защищены.
В начале июля сообщалось о том, что министрам были отправлены сообщения, сгенерированные клонированным с помощью искусственного интеллекта голосом, выдававшим себя за госсекретаря США Марко Рубио.
«За последние девять-двенадцать месяцев сфера открытого исходного кода для голосового управления претерпела стремительные изменения», — добавляет Айдер.
«И это, с точки зрения безопасности, вызывает серьёзную озабоченность».
