Голоса ИИ обычно нацелены на реалистично по -дружески, а предки — это происхождение, счастливые, полезные люди. Но новая модель с открытым исходным кодом, называемая Dia, наклоняется к более эмоциональному спектру голосов, включая некоторые действительно интенсивные крики.
Создатели DIA в лабораториях Nari — крошечная группа, но дали AI проголосовать возможность звучать несколько мелодраматичного художника, который способен сделать реалистичный смех, кашель, горло, нюхать и кричать.
Вы можете не думать, что крик — это большая вещь для ИИ в это время, но крик трудно подделать. Это не может просто говорить громко; Это совершенно другой режим голоса.
Эмоционально выразительный язык — это разрыв в большинстве голосов искусственного интеллекта. Для модели голоса легко прочитать историю перед сном. Тем не менее, это гораздо сложнее, чем пытаться успокоить друга, или, поскольку это видела только что -то шокирующее. Большинство коммерческих моделей избегают звучащих роботов, сглаживая тон голоса, который не эмоционально говорит для такой аудиосимметрии.
DIA относится к невербальной связи как часть производительности. Он знает, что «(кашель)» нельзя игнорировать или буквально читать. Он знает, что крик — это не просто громкая линия. И это выполняет эти вещи с мерой времени, модуляции высоты тона и контроля дыхания, что заставляет их чувствовать себя более реальными.
Предприимчивый пользователь даже использовал его с реорганизовать Немного знаменитый Леруа Дженкинс набросок выполнен World of Warcraft.
Это не означает, что OpenAI, ElevenLabs, Google, Sesame и другие не создали удивительных моделей языка ИИ. Вы можете адаптировать прогрессивный голосовой режим Openai, чтобы говорить с различными эмоциями, и Elfflabs хороша для интерпретации капитализации и пунктуации, чтобы адаптировать язык.
Сезам особенно хорош в том, чтобы звучать и реагировать, как настоящий человек, но даже его модели ошибаются, чтобы быть счастливыми и в целом позитивными.
Конечно, реализм субъективен, и вы можете довольно быстро тренироваться, что DIA — это голос ИИ. С другой стороны, в правильном контексте есть неправильные крики и смех.
Два студента. Один еще в армии. Нулевое финансирование. Смешная цель: создать модель TTS, подкаст NoteBootklm, ElevenLabs Studio и Sesame CSM. Как -то … мы отключили его. Как 👇 pic.twitter.com/8cfjsegcix21 апреля 2025 года
Кричать в AI
То, что делает эту историю большей, чем просто «AI Voice изучает вечеринки», — это то, что он сигнализирует о более широкой породе в ИИ для эмоционального интеллекта.
Мы быстро вступаем в эпоху, в которой ваш помощник недостаточно, чтобы сказать правильные вещи. Это должно сказать это правильно. Подумайте о ботах, которые действительно извиняются, учителя, которые поощряют их вместо уроков, и в игровых персонажах, которые передают искренность.
Конечно, это заставляет власть давать власть, стать более убедительным и, возможно, более манипулятивным. Если эмоциональный язык может быть только другим инструментом ИИ, более чем несколько человек могут кричать.
Тем не менее, я могу представить, что история о призраке не только читает написание истории о призраке для DIA, но и происходит, крики и все такое.