Иногда кажется, что ChatGPT способен думать, как вы, но подождите, пока он вдруг не станет похожим на вас. Эту возможность предоставляет новый расширенный голосовой режим для ChatGPT, особенно более продвинутая модель GPT-4o. На прошлой неделе OpenAI опубликовала карту системы, объясняющую, что может и не может делать GPT-4o. Сюда также входит очень маловероятная, но тем не менее реальная возможность расширенного голосового режима, который имитирует голоса пользователей без их согласия.
Расширенный голосовой режим позволяет пользователям вести разговорную беседу с чат-ботом с искусственным интеллектом. Идея состоит в том, чтобы сделать взаимодействие более естественным и доступным. У ИИ есть несколько предустановленных голосов, которые пользователи могут выбирать. Однако системная карта сообщает, что эта функция в определенных условиях ведет себя неожиданно. Во время тестирования громкий ввод заставил ИИ имитировать голос пользователя.
Модель GPT-4o генерирует голоса с помощью системной подсказки — скрытого набора инструкций, которые управляют поведением модели во время взаимодействия. В случае синтеза речи этот запрос основан на авторизованном образце речи. Хотя системная подсказка контролирует поведение ИИ, она не является надежной. Способность модели синтезировать голоса из коротких аудиоклипов означает, что при определенных условиях она может генерировать другие голоса, в том числе и ваш собственный. Вы можете услышать, что происходит в ролике ниже, когда ИИ говорит «Нет!» и внезапно звучит как первый говорящий.
Ваш собственный голосовой клон
«Генерация голоса также может происходить в неконфронтационных ситуациях, например, когда мы используем эту возможность генерации голоса для расширенного голосового режима ChatGPT. Во время тестирования мы также наблюдали редкие случаи, когда модель непреднамеренно генерировала выходные данные, имитирующие голос пользователя», — сообщил OpenAI. объяснил на системной карте. «Хотя непреднамеренная генерация голоса по-прежнему является слабым местом модели, мы используем вторичные классификаторы, чтобы гарантировать, что разговор в этом случае будет прерван, сводя к минимуму риск непреднамеренной генерации голоса».
Как объявила OpenAI, в настоящее время приняты меры безопасности для предотвращения подобных инцидентов. Это означает использование выходного классификатора, который обнаруживает отклонения от заранее выбранных авторизованных голосов. Этот классификатор действует как защита и помогает гарантировать, что ИИ не будет генерировать несанкционированные аудиоданные. Однако тот факт, что это вообще произошло, подчеркивает, насколько быстро развивается эта технология и как должны развиваться все меры безопасности, чтобы идти в ногу с возможностями ИИ. Всплеск модели, когда она внезапно крикнула «Нет!» голосом, похожим на голос испытателя, подчеркивает потенциал ИИ непреднамеренно стирать границы между взаимодействием машины и человека.