Клонирование голоса с помощью искусственного интеллекта (ИИ) становится все более распространенным. Такие стартапы, как ElevenLabs, вложили миллионы долларов в разработку собственных алгоритмов и программного обеспечения искусственного интеллекта для создания голосовых клонов — аудиопрограмм, имитирующих голоса пользователей. Однако новое решение OpenVoice, разработанное исследователями Массачусетского технологического института (MIT), Университета Цинхуа в Пекине и канадским стартапом в области искусственного интеллекта MyShell, предлагает почти мгновенное клонирование голоса с открытым исходным кодом и негранулированным контролем. платформы.
Содержание
Голоса клонированы с непревзойденной точностью
MyShellв сообщении, опубликованном сегодня на его официальном аккаунте X, сказал:
«Клонируйте голоса с непревзойденной точностью, с детальным контролем тона, от эмоций до акцента, от ритма до пауз и интонации, используя лишь небольшой фрагмент аудио.«.
Компания также предоставила ссылку на свою предварительно рецензированную исследовательскую статью, описывающую, как она была разработана. OpenVoice и указал на несколько мест, где пользователи могут получить к нему доступ и опробовать его, включая интерфейс веб-приложения. MyShell (для входа в систему требуется учетная запись пользователя) e ОбниматьЛицо (публично доступен без учетной записи).
Революционный подход OpenVoice
В научном исследовании четыре создателя OpenVoice – Цинь, Чжао, Ю Э Сунь – описать свой подход к созданию ИИ для клонирования голоса. OpenVoice состоит из двух разных моделей искусственного интеллекта: модели преобразования текста в речь (TTS) и модели «преобразования текста в речь» (TTS).преобразователь тонов«. Первая модель управляетпараметры стиля и языки» и это было обучен на 30 000 предложениях аудиосэмплов из двух носителей английского языка (с американским и британским акцентом), одного говорящего по-китайски и одного говорящего по-японски, каждый из которых был помечен в соответствии с выражаемыми эмоциями. Из этих фрагментов он также выучил интонацию, ритм и паузы. Между тем, модель тонального преобразователя была обучена на более чем 300 000 аудиосэмплах от более чем 20 000 различных динамиков.
В обоих случаях звук человеческой речи был преобразован в фонемы, особые звуки, которые отличают слова друг от друга, и представлены векторными вложениями. Используя «основной динамик» для Модель ТТС и объединив его с тоном, полученным из записанного звука, предоставленного пользователем, две модели вместе могут воспроизводить голос пользователя, а также изменять «тональный цветили эмоциональное выражение произнесенного текста.
Использование OpenVoice
Тестирование новой модели клонирования голоса на ОбниматьЛицо ненаучным путем оказалось, что модель смогла сгенерировать относительно убедительный, хотя и несколько роботизированный, голосовой клон всего за несколько секунд, используя совершенно случайную речь. В отличие от других приложений для клонирования голоса, пользователю не нужно читать определенный фрагмент текста, чтобы клонировать свой голос с помощью OpenVoice. Пользователь просто говорит спонтанно в течение нескольких секунд, а модель генерирует голосовой клон, который можно воспроизвести почти сразу, читая предоставленную ему текстовую подсказку. Вы также можете настроить «стиль» между различными пресетами — счастливым, грустным, дружелюбным, злым и т. д. – с помощью выпадающего меню.
OpenVoice: революция голосового искусственного интеллекта
OpenVoice представляет собой настоящую революцию в области клонирования голоса на основе искусственного интеллекта. Благодаря своему открытому исходному коду он предлагает гибкую и доступную альтернативу другим проприетарным платформам клонирования голоса. Его способность клонировать голоса с детальным контролем тона, от эмоций до акцента, от ритма до пауз и интонации, используя лишь небольшой фрагмент аудио, открывает новые возможности для разработки голосовых приложений.
Процесс создания OpenVoice был подробно описан в предварительно рецензируемой исследовательской работе. Модель преобразование текста в речь (TTS) контролирует параметры стиля и языки и прошел обучение на широком спектре аудиосэмплов от разных носителей разных языков и с разными эмоциями. С другой стороны, модель тонального преобразователя была обучена на большом наборе аудиоданных из более чем 20 000 различных динамиков.
MyShell: Стартап OpenVoice
MyShell — канадский стартап в области искусственного интеллекта, разработавший OpenVoice. Основанная в 2023 году, она уже привлекла начальное финансирование в размере $5,6 млн от нескольких инвестиционных компаний. Его платформа веб-приложений предлагает множество персонажей и ботов на основе искусственного интеллекта с различнымиличность«А также другие функции, такие как создание анимированных GIF-файлов и текстовые ролевые игры, создаваемые пользователями. MyShell приняла бизнес-модель на основе ежемесячной подписки для пользователей своего веб-приложения и для сторонних создателей ботов, которые хотят продвигать свои продукты в приложении. Он также предлагает услуги по обучению искусственному интеллекту.
Выводы
OpenVoice представляет собой крупный прорыв в области клонирования голоса на основе искусственного интеллекта. Благодаря своему открытому исходному коду он предлагает гибкую и доступную альтернативу другим проприетарным платформам. Его детальная регулировка тембра и возможность настройки генерируемых голосов обеспечивают широкий спектр возможных применений. При поддержке сообщества исследователей открытого исходного кода MyShell стремится постоянно совершенствовать OpenVoice и предоставлять ресурсы для исследований ИИ. Появление OpenVoice открывает новые перспективы использования искусственного интеллекта для создания персонализированного и привлекательного голосового опыта. Технологии продолжают развиваться, и мы находимся только в начале того, чего можно достичь с помощью клонирования голоса на основе искусственного интеллекта.