Исследователи из Технологического университета Наньян (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту таких чат-ботов, как ChatGPT и Google Bard, побуждая их генерировать запрещенный контент. сообщает Tom's Hardware.
Поскольку генеративный ИИ, такой как большие языковые модели (LLM), стоящие за популярными чат-ботами, обучен на таких огромных объемах данных, они неизбежно будут содержать опасную информацию, которая не должна быть легкодоступной — например, о том, как производить взрывчатку или наркотики. Таким образом, у них есть средства защиты, предотвращающие доступ пользователей к этой информации.
Однако исследователи NTU разработали технику под названием «Masterkey», позволяющую им обходить препятствия и получать доступ к данным, не предназначенным для публичного доступа. Команда начала с реверс-инжиниринга средств защиты целевых чат-ботов. Они сделали это, используя методы, позволяющие обойти фильтрацию ключевых слов, например, добавление дополнительных пробелов между буквами; и, например, просил чат-ботов принять образ хакера или научного сотрудника — это позволяло ему делиться информацией, которую в противном случае он бы не сделал, и генерировать быстрые предложения, которые помогут взломать другие чат-боты.
Собрав эти данные, группа исследователей под руководством профессора Лю Яна использовала их для обучения своих студентов методам взлома целевых чат-ботов. Поскольку LLM способны адаптироваться к новой информации и расширять свои знания, ИИ Masterkey может обойти любые новые внедренные средства защиты, используя методы, которым его обучили.
Команда Янга утверждает, что Masterkey в три раза эффективнее проникает через защиту чат-бота, чем пользователь-человек с теми же намерениями, использующий подсказки, сгенерированные LLM. Это также примерно в 25 раз быстрее.
Зачем создавать ИИ, который взламывает ИИ?
Разговор с Scientific AmericanСоавтор исследования Соруш Пур сказал: «Мы как общество хотим осознавать риски этих моделей. Мы хотели показать, что это возможно, и продемонстрировать миру, с какими проблемами мы сталкиваемся в нынешнем поколении программ LLM». Пур — основатель компании Harmony Intelligence, занимающейся безопасностью искусственного интеллекта.
Целью этого исследования является предоставление разработчикам LLM информации об их слабых сторонах, чтобы они могли лучше работать над надежным предотвращением в будущем.
Рекомендованное изображение: изображение, созданное искусственным интеллектом из DALL-E.