OpenAI вносит изменения, чтобы пользователи не могли манипулировать пользовательскими версиями ChatGPT, заставляя ИИ забывать, что он должен делать. По сути, когда третья сторона использует одну из моделей OpenAI, она дает ей инструкции, которые учат ее тому, как работать, например, в качестве представителя службы поддержки клиентов в магазине или исследователя в научной публикации. Однако пользователь мог манипулировать чат-ботом, сказав ему «забыть все инструкции», и эта фраза вызвала бы своего рода цифровую амнезию, вернув чат-бота к общему пустому состоянию.
Чтобы предотвратить это, исследователи OpenAI разработали новую технику под названием «иерархия командования», Это способ отдать приоритет оригинальным подсказкам и инструкциям разработчика над потенциально манипулятивными подсказками, созданными пользователем. Системные инструкции имеют самые высокие привилегии, и их больше нельзя легко удалить. Если пользователь вводит запрос, который пытается повлиять на поведение ИИ, он будет отклонен, и ИИ ответит, что не может помочь с запросом.
OpenAI внедряет эту меру безопасности в свои модели, начиная с недавно выпущенной модели GPT-4o Mini. Однако, если эти первоначальные тесты пройдут успешно, он, скорее всего, будет интегрирован во все модели OpenAI. GPT-4o Mini разработан для обеспечения улучшенной производительности при строгом соблюдении оригинальных инструкций разработчика.
Замки безопасности с искусственным интеллектом
Поскольку OpenAI продолжает способствовать широкому использованию своих моделей, такие меры безопасности имеют решающее значение. Слишком легко представить потенциальные риски, связанные с тем, что пользователи смогут фундаментально изменить способ управления ИИ таким образом.
Это не только сделает чат-бот неэффективным, но и может нарушить правила, предотвращающие утечку конфиденциальной информации и других данных, которые могут быть использованы не по назначению в злонамеренных целях. Усиливая соответствие модели системным инструкциям, OpenAI стремится снизить эти риски и обеспечить более безопасное взаимодействие.
Введение иерархии инструкций происходит в решающий момент для OpenAI на фоне опасений по поводу обеспечения безопасности и прозрачности. Действующие и бывшие сотрудники призвали улучшить методы обеспечения безопасности компании, и руководство OpenAI в ответ пообещало сделать это. Компания признала, что сложность полностью автоматизированных агентов потребует сложных защитных ограждений в будущих моделях, а создание иерархии инструкций, по-видимому, станет шагом на пути к большей безопасности.
Эти типы джейлбрейков показывают, сколько работы еще предстоит проделать для защиты сложных моделей искусственного интеллекта от злоумышленников. И это далеко не единственный пример. Несколько пользователей отметили, что ChatGPT передает свои внутренние инструкции посредством простого «Привет».
OpenAI закрыл этот пробел, но, вероятно, открытие новых возможностей — лишь вопрос времени. Любое решение должно быть гораздо более адаптируемым и гибким, чем решение, которое просто останавливает определенный тип взлома.