Когда проблему необходимо решить, o1 начинает «думать» и выполняет несколько логических шагов, чтобы получить ответ. Если вопрос задан на английском языке, ответ будет на английском языке. Однако на некоторых этапах решения модель может использовать другой язык. Пользователи Reddit сообщают, что в цепочке аргументов o1 иногда используется китайский язык.

OpenAI не предоставила никаких объяснений странному поведению o1. У экспертов по искусственному интеллекту есть несколько теорий относительно причины. Некоторые пользователи X, в том числе руководитель Hugging Face Клеман Деланж, предположили, что данные обучения для таких моделей, как o1, содержат много китайских иероглифов. Исследователь Google DeepMind Тед Сяо предположил, что такие компании, как OpenAI, используют сторонние китайские службы тегирования данных. Многие поставщики данных базируются в Китае, чтобы сэкономить деньги. По словам Сяо, переход o1 на китайский язык является примером «влияния китайского языка на мыслительный процесс».

Метки (теги, аннотации) помогают ИИ понимать и обрабатывать информацию во время обучения. Например, для обучения модели распознавания изображений метками могут быть обведенные объекты или подписи к изображениям, описывающие людей, места или вещи на изображении. Предвзятые ярлыки также приводят к предвзятости моделей.

Однако другие эксперты не считают, что проблема кроется в китайской этикетке о1. Модель может с таким же успехом переключиться на хинди, тайский или другой язык, пытаясь что-то решить. Скорее всего, полагают эти эксперты, o1 и другие подобные модели просто используют те языки, на которых им удобнее решать задачу (или это просто галлюцинации).

«Модель не знает, что такое язык и что языки разные», — сказал Мэтью Гуздиал из Университета Альберты. «Для них это просто серия символов».

На самом деле модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токенами могут быть слова («фантастик»), слоги («фан», «тас» и «тик») или даже отдельные буквы в словах («ф», «а», «н», «т», «а». ) быть. «с», «т», «и», «в»). Как и в случае с разметкой, токенизация может привести к предвзятости. Например, многие переводчики слов в лексемы предполагают, что пробел в предложении является символом нового слова, хотя не во всех языках для разделения слов используются пробелы.

ЧИТАТЬ  Как стремиться удовлетворить потребности в разделе 2.5.2 Руководства по качеству Google

Тяньчжэнь Ван, инженер Hugging Face, поддерживает идею о том, что модели могут использовать разные языки в зависимости от задачи из-за ассоциаций, возникающих во время обучения. Ван объясняет это тем, что определенные языки могут быть более полезны для разных способов мышления. Программист поделился собственным опытом: из-за краткости чисел ему легче производить математические вычисления на китайском языке, но при обсуждении вопросов неосознанной предвзятости он автоматически переключается на английский, так как на этом языке он встречает подобные понятия для первый раз столкнулся. Однако из-за непрозрачности моделей OpenAI подтвердить или опровергнуть предположения экспертов не удастся.

Source