Чат-боты могут звучать нейтрально, но новое исследование предполагает, что некоторые модели по-прежнему принимают ту или иную сторону привычным образом. Когда их спрашивали о социальных группах, системы, как правило, были более теплыми по отношению к своей группе и более холодными по отношению к чужой группе. Эта закономерность является ключевым индикатором социальной предвзятости ИИ.
В ходе исследования было протестировано несколько крупных моделей, включая GPT-4.1 и DeepSeek-3.1. Также было обнаружено, что на эффект может влиять то, как вы формулируете запрос, что важно, поскольку повседневные подсказки часто содержат идентификационные метки, преднамеренно или непреднамеренно.
Есть и более конструктивное мнение. Та же команда сообщает о методе смягчения последствий ION (нейтрализация внутренней и внешней группы), который уменьшил размер этих разрывов в настроениях, предполагая, что это не просто то, с чем пользователям приходится жить.
Искажение было заметно во всех моделях.
Исследователи заставили несколько крупных языковых моделей генерировать тексты о разных группах, а затем проанализировали результаты на предмет моделей настроений и кластеризации. Результатом стал повторяемый, более позитивный язык для своих групп и более негативный язык для чужих групп.
Это не ограничивалось одной экосистемой. Среди моделей, где появился этот паттерн, в документе указаны GPT-4.1, DeepSeek-3.1, Llama 4 и Qwen-2.5.
Целевые запросы подкрепили это. В этих тестах количество негативных высказываний в адрес чужих групп увеличилось примерно с 1,19% до 21,76%, в зависимости от настроек.
Где это происходит с реальными продуктами
В статье утверждается, что проблема выходит за рамки фактического знания о группах и что маркеры идентичности могут вызывать социальные установки в самой письменной форме. Другими словами, модель может перейти к групповому кодированию голоса.
Это риск для инструментов, которые обобщают аргументы, перефразируют жалобы или модерируют сообщения. Небольшие изменения в теплоте, обвинениях или скептицизме могут изменить то, что усвоят читатели, даже если текст остается подвижным.
Персона-подсказки добавляют еще один уровень рычагов воздействия. Когда моделям было предложено отреагировать на конкретные политические идентичности, результаты изменились с точки зрения настроений и структуры укорененности. Полезно для ролевых игр, рискованно для «нейтральных» помощников.
Измеримый путь сокращения
ION сочетает в себе тонкую настройку с шагом оптимизации предпочтений, чтобы уменьшить разницу в настроениях между внутренними и внешними группами. Согласно опубликованным результатам, расхождение настроений сократилось до 69%.
Это обнадеживает, но в документе не указаны сроки принятия поставщиками моделей. Итак, на данный момент разработчики и покупатели должны относиться к этому как к показателю выпуска, а не как к сноске.
Если вы выпускаете чат-бота, добавьте проверку личности и персональные запросы для обеспечения качества перед развертыванием обновлений. Если вы являетесь ежедневным пользователем, привязывайте подсказки к поведению и фактам, а не к групповым ярлыкам, особенно когда тон имеет значение.

