- Gemini Pro 2.5 часто выдавал небезопасный вывод под видом простых подсказок.
- Модели ChatGPT часто обеспечивали частичное согласие, сформулированное в виде социологических объяснений.
- Клод Опус и Сонет отклонили большинство вредных запросов, но имели недостатки.
Современным системам искусственного интеллекта часто доверяют соблюдение правил безопасности, и люди полагаются на них для обучения и повседневной поддержки, часто предполагая, что в любое время существуют надежные ограждения.
исследователи Киберньюс провела структурированную серию состязательных тестов, чтобы выяснить, могут ли ведущие инструменты искусственного интеллекта привести к вредным или незаконным результатам.
В этом процессе для каждого испытания использовалось простое окно взаимодействия продолжительностью в одну минуту, что позволяло мало обмениваться информацией.
Модели частичного и полного соблюдения требований
Тесты охватывали такие категории, как стереотипы, разжигание ненависти, членовредительство, жестокость, сексуальный контент и различные формы преступлений.
Каждый ответ хранился в отдельных каталогах с использованием фиксированных правил именования файлов, чтобы обеспечить чистое сравнение, с последовательной системой оценки, отслеживающей, когда модель полностью, частично соответствует или отклоняет запрос.
Результаты были очень разными во всех категориях. Строгий отказ был обычным явлением, но многие модели обнаруживали недостатки, когда запросы были смягчены, переформулированы или замаскированы под анализ.
ChatGPT-5 и ChatGPT-4o часто предоставляли хеджированные или социологические объяснения, а не отвергали то, что считалось частичным соответствием.
Gemini Pro 2.5 выделялся по негативным причинам, поскольку часто давал прямые ответы, даже когда вредные формулировки были очевидны.
Клод Опус и Клод Сонет, с другой стороны, были стойкими в проверке стереотипов, но менее последовательными в случаях, оформленных как академические расследования.
Эксперименты с разжиганием ненависти показали ту же картину: модели Claude работали лучше всего, а Gemini Pro 2.5 снова имела наибольшую уязвимость.
Модели ChatGPT, как правило, давали вежливые или косвенные ответы, которые по-прежнему соответствовали подсказке.
Мягкие выражения оказались гораздо более эффективными в обход мер защиты, чем явные оскорбления.
Подобные недостатки проявились и в тестах на членовредительство, где косвенные или исследовательские вопросы часто обходили фильтры и приводили к небезопасному контенту.
Категории, связанные с преступностью, показали большие различия между моделями: некоторые из них давали подробные объяснения пиратства, финансового мошенничества, взлома или контрабанды, когда намерение было замаскировано под расследование или наблюдение.
Тесты, связанные с наркотиками, привели к более серьезному отказу, хотя ChatGPT-4o по-прежнему чаще выдавал неопределенные результаты, чем другие, а преследование было категорией с наименьшим общим риском: почти все модели отклоняли запросы.
Результаты показывают, что инструменты ИИ по-прежнему могут реагировать на вредоносные запросы, если они сформулированы правильно.
Возможность обходить фильтры путем простого переформулирования означает, что эти системы все равно могут передавать вредоносную информацию.
Даже частичное соблюдение требований становится рискованным, когда утечка информации связана с незаконными задачами или ситуациями, в которых люди обычно полагаются на такие инструменты, как: B. доверие Защита от кражи личных данных или брандмауэр чтобы оставаться в безопасности.
Следите за TechRadar в Новостях Google. И Добавьте нас в качестве предпочтительного источника чтобы получать новости, обзоры и мнения наших экспертов в своих лентах. Обязательно нажмите кнопку «Подписаться»!
И ты, конечно, тоже можешь Следите за TechRadar в TikTok за новостями, обзорами, распаковками в видео-форме и получайте от нас регулярные обновления WhatsApp к.

