OpenAI нужно 15 секунд аудио, чтобы его ИИ смог клонировать голос

В последние годы время прослушивания, необходимое ИИ для клонирования голоса человека, становится все короче и короче.

Раньше это были минуты, теперь — секунды.

OpenAI, компания, поддерживаемая Microsoft и создающая вирусный чат-бот ChatGPT с генеративным искусственным интеллектом, недавно объявила, что ее запатентованная технология клонирования голоса требует всего 15 секунд звука для воспроизведения голоса человека.

В сообщении на своем сайте OpenAI опубликовала небольшой предварительный просмотр модели под названием Voice Engine, которая находится в разработке с конца 2022 года.

Voice Engine работает, подавая ему как минимум 15 секунд разговорного материала. Затем пользователь может ввести текст, чтобы создать то, что OpenAI описывает как «эмоциональный и реалистичный» язык, который «очень похож на исходный говорящий».

OpenAI настаивает на «осторожном и информированном подходе» к более широкому выпуску из-за возможности злоупотребления синтетическими голосами, добавляя, что «поддерживает диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться». к этим новым условиям. Навыки.»

В нем добавлено: «На основе этих разговоров и результатов этих небольших испытаний мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах».

Одно из злоупотреблений, на которые ссылается OpenAI, — это мошенничество, которое некоторые преступники уже используют с использованием аналогичной технологии, которая уже некоторое время находится в открытом доступе. Он включает в себя клонирование голоса, а затем звонок другу или родственнику этого человека, чтобы заставить его передать наличные банковским переводом. Существуют также опасения по поводу того, как эта технология может быть использована на предстоящих президентских выборах, и эта проблема подчеркивается недавним громким инцидентом, в котором робот-звонок использовал клон голоса президента Джо Байдена. сказал людям не голосовать на праймериз в Нью-Гэмпшире в январе.

ЧИТАТЬ Этот игровой монитор Samsung обычно стоит 1100 долларов, сегодня — 450 долларов | Цифровые тенденции

Еще одна проблема заключается в том, как быстрое совершенствование технологий повлияет на средства к существованию актеров озвучивания, которые опасаются, что от них все чаще будут требовать передачи прав на свой голос, чтобы можно было создать синтетическую версию с использованием искусственного интеллекта в обмен на компенсацию за такой контракт. быть гораздо ниже, чем если бы актера попросили выполнить работу лично.

В поисках более позитивного использования этой технологии OpenAI предполагает, что ее можно использовать для оказания помощи в чтении тем, кто не умеет читать, и детям с использованием естественно звучащих, эмоциональных голосов, «которые представляют более широкий круг говорящих, чем это возможно с заранее заданными голосами». в качестве мгновенного перевода видео и подкастов, что Spotify уже тестирует.

Его также можно использовать, чтобы помочь пациентам, которые постепенно теряют голос из-за болезни, продолжать общаться с чем-то, что звучит как их собственный голос.

В OpenAI есть несколько примеров звука, сгенерированного ИИ, и эталонного звука. на его сайте И мы уверены, вы согласитесь, они довольно необычны.

Редакционные рекомендации

Source