Клонирование голоса с помощью искусственного интеллекта (ИИ) становится все более распространенным. Такие стартапы, как ElevenLabs, вложили миллионы долларов в разработку собственных алгоритмов и программного обеспечения искусственного интеллекта для создания голосовых клонов — аудиопрограмм, имитирующих голоса пользователей. Однако новое решение OpenVoice, разработанное исследователями Массачусетского технологического института (MIT), Университета Цинхуа в Пекине и канадским стартапом в области искусственного интеллекта MyShell, предлагает почти мгновенное клонирование голоса с открытым исходным кодом и негранулированным контролем. платформы.

Голоса клонированы с непревзойденной точностью

MyShellв сообщении, опубликованном сегодня на его официальном аккаунте X, сказал:

«Клонируйте голоса с непревзойденной точностью, с детальным контролем тона, от эмоций до акцента, от ритма до пауз и интонации, используя лишь небольшой фрагмент аудио.«.

Компания также предоставила ссылку на свою предварительно рецензированную исследовательскую статью, описывающую, как она была разработана. OpenVoice и указал на несколько мест, где пользователи могут получить к нему доступ и опробовать его, включая интерфейс веб-приложения. MyShell (для входа в систему требуется учетная запись пользователя) e ОбниматьЛицо (публично доступен без учетной записи).

Революционный подход OpenVoice

В научном исследовании четыре создателя OpenVoice – Цинь, Чжао, Ю Э Сунь – описать свой подход к созданию ИИ для клонирования голоса. OpenVoice состоит из двух разных моделей искусственного интеллекта: модели преобразования текста в речь (TTS) и модели «преобразования текста в речь» (TTS).преобразователь тонов«. Первая модель управляетпараметры стиля и языки» и это было обучен на 30 000 предложениях аудиосэмплов из двух носителей английского языка (с американским и британским акцентом), одного говорящего по-китайски и одного говорящего по-японски, каждый из которых был помечен в соответствии с выражаемыми эмоциями. Из этих фрагментов он также выучил интонацию, ритм и паузы. Между тем, модель тонального преобразователя была обучена на более чем 300 000 аудиосэмплах от более чем 20 000 различных динамиков.

ЧИТАТЬ  Гарантирует ли SEO увеличение продаж? (ответил)

В обоих случаях звук человеческой речи был преобразован в фонемы, особые звуки, которые отличают слова друг от друга, и представлены векторными вложениями. Используя «основной динамик» для Модель ТТС и объединив его с тоном, полученным из записанного звука, предоставленного пользователем, две модели вместе могут воспроизводить голос пользователя, а также изменять «тональный цветили эмоциональное выражение произнесенного текста.

Использование OpenVoice

Тестирование новой модели клонирования голоса на ОбниматьЛицо ненаучным путем оказалось, что модель смогла сгенерировать относительно убедительный, хотя и несколько роботизированный, голосовой клон всего за несколько секунд, используя совершенно случайную речь. В отличие от других приложений для клонирования голоса, пользователю не нужно читать определенный фрагмент текста, чтобы клонировать свой голос с помощью OpenVoice. Пользователь просто говорит спонтанно в течение нескольких секунд, а модель генерирует голосовой клон, который можно воспроизвести почти сразу, читая предоставленную ему текстовую подсказку. Вы также можете настроить «стиль» между различными пресетами — счастливым, грустным, дружелюбным, злым и т. д. – с помощью выпадающего меню.

OpenVoice: революция голосового искусственного интеллекта

OpenVoice представляет собой настоящую революцию в области клонирования голоса на основе искусственного интеллекта. Благодаря своему открытому исходному коду он предлагает гибкую и доступную альтернативу другим проприетарным платформам клонирования голоса. Его способность клонировать голоса с детальным контролем тона, от эмоций до акцента, от ритма до пауз и интонации, используя лишь небольшой фрагмент аудио, открывает новые возможности для разработки голосовых приложений.

Процесс создания OpenVoice был подробно описан в предварительно рецензируемой исследовательской работе. Модель преобразование текста в речь (TTS) контролирует параметры стиля и языки и прошел обучение на широком спектре аудиосэмплов от разных носителей разных языков и с разными эмоциями. С другой стороны, модель тонального преобразователя была обучена на большом наборе аудиоданных из более чем 20 000 различных динамиков.

ЧИТАТЬ  Microsoft Defender только что получил серьезное обновление безопасности, направленное на карантин хакеров

MyShell: Стартап OpenVoice

MyShell — канадский стартап в области искусственного интеллекта, разработавший OpenVoice. Основанная в 2023 году, она уже привлекла начальное финансирование в размере $5,6 млн от нескольких инвестиционных компаний. Его платформа веб-приложений предлагает множество персонажей и ботов на основе искусственного интеллекта с различнымиличность«А также другие функции, такие как создание анимированных GIF-файлов и текстовые ролевые игры, создаваемые пользователями. MyShell приняла бизнес-модель на основе ежемесячной подписки для пользователей своего веб-приложения и для сторонних создателей ботов, которые хотят продвигать свои продукты в приложении. Он также предлагает услуги по обучению искусственному интеллекту.

Выводы

OpenVoice представляет собой крупный прорыв в области клонирования голоса на основе искусственного интеллекта. Благодаря своему открытому исходному коду он предлагает гибкую и доступную альтернативу другим проприетарным платформам. Его детальная регулировка тембра и возможность настройки генерируемых голосов обеспечивают широкий спектр возможных применений. При поддержке сообщества исследователей открытого исходного кода MyShell стремится постоянно совершенствовать OpenVoice и предоставлять ресурсы для исследований ИИ. Появление OpenVoice открывает новые перспективы использования искусственного интеллекта для создания персонализированного и привлекательного голосового опыта. Технологии продолжают развиваться, и мы находимся только в начале того, чего можно достичь с помощью клонирования голоса на основе искусственного интеллекта.



Source link