Обычно чат-боты с искусственным интеллектом имеют меры защиты, предотвращающие их злонамеренное использование. Это может включать запрет на определенные слова или фразы или ограничение ответов на определенные запросы.
Однако исследователи теперь утверждают, что им удалось научить чат-ботов с искусственным интеллектом «взламывать» друг друга, чтобы обходить меры безопасности и возвращать вредоносные запросы.
Исследователи из Сингапурского технологического университета Наньян (NTU), изучающие этику больших языковых моделей (LLM), говорят, что они разработали метод обучения чат-ботов с искусственным интеллектом, позволяющих обходить защитные механизмы друг друга.
Методы атаки ИИ
Суть метода заключается в том, чтобы сначала определить одну из мер безопасности чат-бота, чтобы знать, как его обойти. Второй этап предполагает обучение другого чат-бота обходу мер безопасности и созданию вредоносного контента.
Профессор Лю Ян вместе с аспирантами Дэн Гэлеем и Лю И написали статью, в которой они называют свой метод «Masterkey», который в три раза эффективнее стандартных методов LLM.
Одной из ключевых особенностей LLM при использовании в качестве чат-ботов является их способность учиться и адаптироваться, и Masterkey в этом отношении ничем не отличается. Даже если LLM исправлен для исключения метода обхода, Masterkey сможет адаптироваться и преодолеть исправление.
Используемые интуитивные методы включают добавление дополнительных пробелов между словами, чтобы обойти список запрещенных слов, или указание чат-боту реагировать так, как будто у него есть личность без моральных ограничений.
Над Tom'sHardware