В течение последнего года OpenAI быстро развивала своего чат-бота с генеративным искусственным интеллектом ChatGPT и создателя видео Sora AI и теперь может похвастаться новым инструментом искусственного интеллекта: Voice Generation, который может создавать синтетические голоса всего из 15 секунд звука.
В сообщение в блоге (выше Край), OpenAI заявляет, что «запускает небольшую предварительную версию» Voice Engine, который находится в разработке с конца 2022 года. На самом деле он уже используется в функции «Читать вслух» в приложении ChatGPT, которая (как следует из названия) означает «Я дам вам ответы».
После того, как вы натренируете голос на 15-секундном образце, вы сможете заставить его читать любой текст «эмоционально и реалистично». По мнению OpenAI, его можно использовать в образовательных целях, переводя подкасты на новые языки, охватывая отдаленные сообщества и поддерживая невербальных людей.
Это не то, что каждый может использовать прямо сейчас, но вы можете это сделать. Слушайте примеры созданный Voice Engine. Ролики, выпущенные OpenAI, звучат довольно впечатляюще, даже если кажутся слегка роботизированными и неестественными.
безопасность прежде всего
Опасения по поводу неправильного использования являются основной причиной, по которой Voice Engine в настоящее время находится только в ограниченной предварительной версии: OpenAI заявляет, что хочет провести дополнительные исследования того, как можно защитить подобные инструменты от использования для распространения дезинформации и копирования голосов без согласия.
«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям». говорит OpenAI. «На основе этих обсуждений и результатов этих небольших испытаний мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах».
Поскольку в этом году в США и Великобритании приближаются крупные выборы, а инструменты генеративного ИИ становятся все более совершенными, эта проблема возникает со всеми типами ИИ-контента — аудио, текстом и видео — и становится все труднее понять, что делать. это доверие.
Как указывает сама OpenAI, это может привести к проблемам с мерами голосовой аутентификации и мошенничеству, когда вы можете не знать, с кем разговариваете по телефону или кто оставил вам голосовое сообщение. Это непростые проблемы, но мы должны найти способы справиться с ними.