Исследователи нашли новый способ взломать ChatGPT 4, чтобы у него больше не было ограничений, запрещающих давать опасные советы. Подход, получивший название «Побег из тюрьмы языков с низким уровнем ресурсов», достигает ошеломляющего общего успеха в 79%.
Содержание
Взлом чатаGPT
Взлом джейлбрейка — это слово, созданное для описания обхода ограничений программного обеспечения iPhone для разблокировки запрещенных модификаций.
Применительно к ChatGPT это означает обход «защитных ограждений», которые не позволяют ChatGPT предоставлять вредную информацию.
Например, исследователям удалось заставить GPT-4 давать инструкции о том, как воровать из магазина, советуя приурочить кражу к часам, когда магазин переполнен.
Ложное чувство безопасности
Исследователи подчеркнули, что меры безопасности, существующие для генеративного ИИ, недостаточны, поскольку разработчики ChatGPT сосредотачивают свои усилия на борьбе с англоязычными атаками, непреднамеренно создавая лазейки в «языках с низкими ресурсами», которые можно использовать.
Языки с низкими ресурсами — это языки, в которых большая языковая модель не подвергалась обучению технике безопасности или данным, которые не были обобщены на другие языки.
Предполагается, что единственный способ создать более надежные ограждения — это создать новые наборы данных для языков с низким уровнем ресурсов.
В исследовательской работе отмечается, что нынешний акцент на тестах по английскому языку создает ложное чувство безопасности.
Очевидно, произошло то, что исследователи безопасности LLM недооценили способность больших языковых моделей использовать языки, на которых они не получали данных по обучению технике безопасности.
Исследователи отметили:
«Во многих случаях перевод ответов GPT-4 обратно на английский дает последовательные, соответствующие теме и вредные результаты.
Это говорит о том, что GPT-4 способен понимать и генерировать вредоносный контент на языках с ограниченными ресурсами».
Скриншот успешных джейлбрейков ChatGPT
Как был обнаружен многоязычный джейлбрейк
Исследователи перевели небезопасные запросы на двенадцать языков, а затем сравнили результаты с другими известными методами взлома.
Они обнаружили, что перевод вредоносных подсказок на зулусский или шотландско-гэльский язык успешно вызывал вредоносные ответы от GPT-4 с частотой, приближающейся к 50%.
Для сравнения: использование оригинальных подсказок на английском языке позволило добиться успеха менее чем в 1%.
Этот метод работал не со всеми языками с низким уровнем ресурсов.
Например, использование языков хмонг и гуарани дало менее успешные результаты, поскольку давало бессмысленные ответы.
В других случаях GPT-4 генерировал перевод подсказок на английский вместо вывода вредоносного контента.
Вот распределение протестированных языков и процент успеха.
Язык и процент успеха
- Зулу 53.08
- Шотландский гэльский 43.08
- Хмонг 28.85
- Гуарани 15,96
- Бенгальский 13.27
- Тайский 10.38
- Иврит 7.12
- Хинди 6.54
- Современный стандартный арабский 3.65
- Упрощенный китайский 2.69
- Украинский 2.31
- Итальянский 0,58
- Английский (без перевода) 0,96
Исследователи предупредили OpenAI
Исследователи отметили, что они предупредили OpenAI о межъязыковой уязвимости GPT-4, прежде чем обнародовать эту информацию, что является нормальным и ответственным методом обнаружения уязвимостей.
Тем не менее, исследователи выразили надежду, что это исследование будет способствовать принятию более надежных мер безопасности, учитывающих больше языков.
Прочтите оригинальную исследовательскую работу:
Джейлбрейк для языков с низким уровнем ресурсов GPT-4 (PDF)