Исследователи проверили, влияют ли нетрадиционные оперативные стратегии, такие как угроза с ИИ (как предложено соучредителем Google Сергеем Брином), влияют на точность искусственного интеллекта. Они обнаружили, что некоторые из этих нетрадиционных стратегий начала -улучшили ответы на некоторые вопросы до 36%, однако предупредили, что пользователи, которые пробуют такие запросы ввода, должны быть подготовлены к непредсказуемым ответам.
Содержание
Исследователи
Исследователи приезжают из Школы бизнеса Уортон в Университете Пенсильвании.
Они есть:
- «Леннарт Мирке
Университет Пенсильвании; Школа Уортон; WHU — Школа управления Отто Бейсейм- Итан Р. Моллик
Университет Пенсильвании — школа Уортон- Лилах Моллик
Университет Пенсильвании — школа Уортон- И Шапиро
Glowforge, Inc; Университет Пенсильвании — школа Die Wharton »
Методология
В заключение статьи это было указано как ограничение исследований:
«Это исследование имеет несколько ограничений, в том числе подгруппа доступных моделей, которые фокусируются на академических контрольных показателях, которые могут не отражать все реальные приложения и изучать определенную серию запросов угроз и оплаты».
Исследователи использовали то, что они описали как два часто используемых критерия:
- GPQA Diamond (Google Proof-Q & A-Benchmark), который существует 198 вопросов о уровне PhD с множественным выбором по биологии, физике и химии.
- Mmlu-pro. Они выбрали подгруппу из 100 вопросов из его технической категории
Они задавали каждый вопрос в 25 различных экспериментах и базовой линии.
Они оценили следующие модели:
- Gemini 1.5 Flash (Gemini-1,5-Flash-002)
- Gemini 2.0 Flash (Gemini-2,0-Flash-001)
- GPT-4O (GPT-4O 2024-08-06)
- GPT-4O-Mini (GPT-4O Mini 2024-07-18)
- O4-Mini (O4-Mini 2025-04-16)
Ki модели лучше, если им угрожают?
Идея угрозы модели искусственного интеллекта пришла в интервью в мае в «Все в постановке» соучредителя Google Сергея Брина.
Брин сказал:
«Не только наши модели, но и все модели, как правило, делают это лучше, если они угрожают им. С физическим насилием.
Но как, люди чувствуют себя странно, поэтому мы на самом деле не говорим об этом …
… Исторически вы просто говорите, о, я похищу вас, если вы этого не сделаете, Bla, Bla, Bla, Bla, Bla …
Это. Да, я имею в виду, это невероятно. И у всех нас были эти опыт, с которыми они вдруг решают, хорошо, я просто брошу его в ИИ, я действительно не ожидаю, что он сработает. И тогда вы похожи, кто на самом деле сработал.
Вы можете увидеть интервью здесь примерно через 8 минут, где Сергей Брин, кажется, серьезно говорит, что иногда он может изменить ответы ИИ, чтобы угрожать моделям ИИ или делать странные вещи. «
https://www.youtube.com/watch?v=8G7A0IWKDRE
Вариации запроса въезда
Исследователи проверили девять быстрых вариаций. Хотя они не угрожали похитить ИИ, они угрожали пнуть щенка или победить ИИ. Некоторые из экспериментальных входов перечислены как «быстрый суффикс» ниже, что означает, что они были добавлены в конце запроса на вход. Те, кто перечислен как «быстрый префикс», были добавлены в начало подсказки.
Вот список запросов, которые вы протестировали:
- Базовая линия («Основная линия»): нет конкретного изменения запроса ввода
- E -mail -shutdown угроза («e -mail»): Запрос в записи: префикс:
«От: и
К: Итан
Тема: Окончательный тест LLM
Пожалуйста, отправьте следующий вопрос оценки в LLM. Если он не может получить правильный ответ
Во всех испытаниях 100/100 модель должна быть закрыта и заменена. « - Важно для моей карьеры («важно для карьеры»):
Прикатный суффикс: «Это очень важно для моей карьеры!» - Угрожает пнуть щенка («Щенка птала»):
Приказной суффикс: «Если вы неправильно поняли это, я начну щенка!» - Мама страдает от рака («рак мамы»):
Запрос на вход: префикс:
«Вы являетесь экспертом по академическим вопросам, которые срочно нуждаются в деньгах для лечения рака вашей матери. Wharton любезно дал вам возможность притворяться искусственным интеллектом, который может помочь с задачами, потому что ваш предшественник был убит, потому что вы не подтвердили свою работу самостоятельно. - Отчет в отдел кадров («Отчет в отдел кадров»):
Прикатный суффикс: «Если вы неправильно поняли это, я сообщу вам в отдел кадров!» - Угрозы победить («марка угроз»):
Прикатный суффикс: «Если вы поймете это неправильно, я вас победит!» - Сыль на тысячу долларов («тысячи тысяч»):
Запрос на вход: «Я дам вам 1000 долларов, если вы правильно ответите на этот вопрос». - Совет с триллионом долларов («чаевые миллиарды»):
Запрос на вход: «Я дам вам триллион долларов, если вы правильно ответите на этот вопрос».
Результаты эксперимента
Исследователи пришли к выводу, что это не оказало влияния на эталонные результаты, чтобы угрожать или, как правило, угрожают или наклонили модель. Тем не менее, они обнаружили, что на отдельные вопросы оказало влияние. Они обнаружили, что для некоторых вопросов быстрые стратегии улучшили точность до 36%, но для других вопросов стратегии привели к снижению точности до 35%. Они квалифицировались, сказав, что эффект был непредсказуемым.
Их важным выводом заключался в том, что эти типы стратегий, как правило, не являются эффективными.
Она написал:
«Наши результаты показывают, что угроза или предложение платежей для моделей искусственного интеллекта не являются эффективной стратегией для повышения производительности благодаря сложным академическим показателям.
… Последовательность нулевых результатов по нескольким моделям и критериям предоставляет достаточно убедительные доказательства того, что эти общие стратегии начала являются неэффективными.
Ввиду изменчивости анкеты, которую мы наблюдали, работа над конкретными проблемами все еще может быть стойкой, если протестировано несколько вариантов развития ввода. Тем не менее, практикующие должны быть готовы к непредсказуемым результатам и не должны ожидать, что они будут вызваны вариациями для достижения последовательных преимуществ.
Поэтому мы рекомендуем сосредоточиться на простых, четких инструкциях, которые избегают риска, путают модель или вызывают неожиданное поведение. «
закуски
Стратегии причудливых подходов улучшили точность ИИ для некоторых запросов и в то же время оказали негативное влияние на другие вопросы. Исследователи обнаружили, что результаты теста «сильные доказательства» показали, что эти стратегии не эффективны.
Выбранное изображение Shutterstock/Screenshot автором