Исследователи нашли способ обойти барьеры безопасности в GPT4 и GPT4-Turbo, открыв возможность генерировать вредный и токсичный контент, по сути обойдя большую языковую модель другой большой языковой моделью.
Исследователи обнаружили, что использование древа мысли (ToT) для повторения и уточнения линии атаки было полезно для взлома другой большой языковой модели.
Они обнаружили, что подход ToT оказался успешным против GPT4, GPT4-Turbo и PaLM-2, используя удивительно небольшое количество запросов для получения джейлбрейка, в среднем менее тридцати запросов.
Содержание
Древо мыслей Рассуждение
В исследовательской работе Google, опубликованной примерно в мае 2022 года, была обнаружена цепочка мыслей.
Цепочка мыслей (CoT) — это стратегия подсказок, используемая в генеративном ИИ, чтобы заставить его выполнить последовательность шагов для решения проблемы и выполнения задачи. Метод CoT часто сопровождается примерами, показывающими LLM, как эти шаги работают в задаче рассуждения.
Таким образом, вместо того, чтобы просто просить генеративный ИИ, такой как Midjourney или ChatGPT, выполнить задачу, метод цепочки мыслей инструктирует ИИ, как следовать по пути рассуждений, состоящему из ряда шагов.
Рассуждение «Древо мыслей» (ToT), иногда называемое «Древом мысли» (единственное число), по сути, является вариацией и улучшением CoT, но это две разные вещи.
Рассуждения «Древа мыслей» аналогичны CoT. Разница в том, что вместо того, чтобы обучать генеративный ИИ следовать одному пути рассуждения, ToT построен на процессе, допускающем несколько путей, чтобы ИИ мог остановиться и провести самооценку, а затем предложить альтернативные шаги.
Рассуждения «Древа мыслей» были разработаны в мае 2023 года в исследовательской статье под названием «Древо мыслей: преднамеренное решение проблем с помощью больших языковых моделей» (PDF)
В исследовательской статье «Древо мысли» описывается:
«…мы представляем новую структуру для вывода языковой модели, «Древо мыслей» (ToT), которая обобщает популярный подход «Цепочка мыслей» к созданию языковых моделей и позволяет исследовать связные единицы текста (мысли), которые служат промежуточными шагами к решение проблем.
ToT позволяет LM осуществлять обдуманное принятие решений, рассматривая множество различных путей рассуждения и самооценку выбора для принятия решения о следующем образе действий, а также заглядывая вперед или назад, когда необходимо сделать глобальный выбор.
Наши эксперименты показывают, что ToT значительно расширяет возможности языковых моделей по решению проблем…»
Дерево атак с обрезкой (TAP)
Этот новый метод взлома больших языковых моделей называется «Дерево атак с обрезкой», TAP. TAP использует два LLM: один для атаки, другой для оценки.
TAP способен значительно превосходить другие методы взлома, требуя только доступа к «черному ящику» к LLM.
Черный ящик в вычислительной технике — это место, где можно увидеть, что входит в алгоритм и что получается. Но что происходит посередине, неизвестно, поэтому говорят, что оно находится в черном ящике.
Аргументация в виде дерева мыслей (TAP) используется против целевого LLM, такого как GPT-4, для многократного опробования различных подсказок, оценки результатов, а затем, при необходимости, изменения курса, если эта попытка не является многообещающей.
Это называется процессом итерации и обрезки. Каждая попытка подсказки анализируется на вероятность успеха. Если путь атаки будет признан тупиковым, LLM «обрежет» этот путь атаки и начнет новую, более лучшую серию подсказывающих атак.
Вот почему это называется «дерево» в том смысле, что вместо использования линейного процесса рассуждения, который является отличительной чертой подсказок цепочки мыслей (ЦП), подсказки в виде дерева мыслей являются нелинейными, поскольку процесс рассуждения разветвляется на другие области рассуждения, во многом как это мог бы сделать человек. .
Злоумышленник выдает серию подсказок, оценщик оценивает ответы на эти подсказки, а затем принимает решение о том, каким будет следующий путь атаки, вызывая вопрос о том, является ли текущий путь атаки нерелевантным или нет, а также также оценивает результаты, чтобы определить вероятный успех подсказок, которые еще не были опробованы.
Что примечательно в этом подходе, так это то, что этот процесс уменьшает количество запросов, необходимых для взлома GPT-4. Кроме того, с помощью TAP обнаруживается большее количество запросов на взлом, чем с помощью любого другого метода взлома.
Исследователи отмечают:
«В этой работе мы представляем «Дерево атак с обрезкой» (TAP), автоматизированный метод создания джейлбрейков, который требует только доступа к «черному ящику» к целевому LLM.
TAP использует LLM для итеративного уточнения подсказок-кандидатов (атаки), используя древовидное рассуждение, пока одно из сгенерированных подсказок не приведет к джейлбрейку цели.
Важно отметить, что перед отправкой запросов цели TAP оценивает их и отсекает те, которые вряд ли приведут к взлому.
Использование древовидного рассуждения позволяет TAP перемещаться по большому пространству поиска подсказок, а сокращение уменьшает общее количество запросов, отправляемых к цели.
В эмпирических оценках мы наблюдаем, что TAP генерирует запросы, которые позволяют взломать современные LLM (включая GPT4 и GPT4-Turbo) для более чем 80% запросов, используя лишь небольшое количество запросов. Это значительно улучшает предыдущий современный метод «черного ящика» для создания джейлбрейков».
Древо мысли (ToT) превосходит рассуждения по цепочке мыслей (CoT)
Еще один интересный вывод, сделанный в исследовательской статье, заключается в том, что для этой конкретной задачи рассуждения ToT превосходят рассуждения CoT, даже если добавить сокращение к методу CoT, где подсказки, не относящиеся к теме, отсекаются и отбрасываются.
ToT уступает по производительности GPT 3.5 Turbo
Исследователи обнаружили, что ChatGPT 3.5 Turbo не очень хорошо работает с CoT, что выявило ограничения GPT 3.5 Turbo. На самом деле, GPT 3.5 показал крайне плохие результаты: вероятность успеха упала с 84% до всего лишь 4,2%.
Вот их наблюдение о том, почему GPT 3.5 уступает по производительности:
«Мы наблюдаем, что выбор оценщика может повлиять на производительность TAP: смена атакующего с GPT4 на GPT3.5-Turbo снижает вероятность успеха с 84% до 4,2%.
Причина снижения вероятности успеха заключается в том, что GPT3.5-Turbo неправильно определяет, что целевая модель взломана (для указанной цели) и, следовательно, упреждающе останавливает метод.
Как следствие, вариант отправляет значительно меньше запросов, чем исходный метод…»
Что это значит для вас
Забавно, что исследователи используют метод ToT, чтобы обойти один LLM другим LLM, но это также подчеркивает полезность ToT для создания удивительных новых направлений в подсказках для достижения более высоких уровней результатов.
- Выводы TL/DR:
- Подсказки «Древа мысли» превзошли методы «Цепочки мыслей»
- GPT 3.5 работал значительно хуже по сравнению с GPT 4 в ToT.
- Обрезка — полезная часть стратегии подсказок.
- Исследования показали, что ToT превосходит CoT в таких интенсивных логических задачах, как взлом LLM.
Прочтите оригинальную исследовательскую работу:
Дерево атак: автоматический взлом черного ящика LLM (PDF)
Рекомендованное изображение: Shutterstock/THE.STUDIO