Вскоре после выпуска OpenAI о1мой первый «Аргументация» С моделью ИИ люди начали замечать странное явление. Модель иногда заводилась «думать» на китайском, персидском или другом языке, даже если ей задали вопрос на английском языке.
После того, как o1 получает вопрос, например: «Сколько букв «R» в слове «клубника»?», o1 начинает думать и использует логическое мышление, чтобы придумать ответ. Если вопрос был задан на английском языке, o1 даст ответ на английском языке. Однако прежде чем модель придет к ответу, она выполняет несколько действий на другом языке.
«o1 внезапно начал думать по-китайски в середине процесса» написал пользователь Reddit.
«Почему o1 вдруг начал думать по-китайски?» — спросил другой пользователь? Сообщение на X. «Ни один из фрагментов разговора (более 5 сообщений) не был на китайском языке».
OpenAI не объяснила и не признала странное поведение модели o1. Некоторые пользователи, в том числе Клеман Деланж, генеральный директор Hugging Face, заметил что модели аргументации, такие как o1, обучаются на наборах данных, содержащих большое количество китайских иероглифов.
Тед Сяо, исследователь Google DeepMind, отметил, что такие компании, как OpenAI, используют сторонние сервисы для маркировки китайских данных. Он также пояснил, что переход модели o1 на китайский язык является примером «Китайское лингвистическое влияние на мышление».
«Такие лаборатории, как OpenAI и Anthropic, используют сторонние сервисы маркировки данных для научных, математических и программных задач на уровне выпускников», — написал Сяо. Опубликовать на X. «Из-за нехватки квалифицированной рабочей силы и высоких затрат многие из этих поставщиков данных базируются в Китае».
Метки, также называемые тегами или аннотациями, помогают моделям понимать и интерпретировать данные во время обучения. Исследования показали, что предвзятые ярлыки могут привести к предвзятым моделям. В частности, средний комментатор с большей вероятностью считают токсичными фразы, произнесенные на афроамериканском диалекте английского языка (AAVE), в которых используется неформальная грамматика. Это, в свою очередь, приводит к тому, что детекторы токсичности ИИ, обученные на таких метках, воспринимают AAVE как преувеличенное. ядовитый.
Однако другие эксперты не верят в гипотезу о том, что o1 использует китайские данные. Скорее всего о1 и другие модели аргументации они просто могут Использовать языкито, что они считают наиболее эффективным для достижения цели (или галлюцинировать).
«Модель не знает, что такое язык и что существуют разные языки», — рассказал TechCrunch Мэтью Гуздиал, исследователь искусственного интеллекта и доцент Университета Альберты. «Для них это просто текст».
Модели не обрабатывают слова напрямую. Вместо этого используйте их Токены. Токены может например, быть словами «фантастический». Или это могут быть такие слоги, как «фан», «тас» и «тик». Или это могут быть отдельные символы в словах, например «f», «a», «n», «t», «a», «s», «t», «i», «k».
Как и тегирование, токены могут вносить предвзятость. Например, многие программы преобразования слов в токены предполагают, что пробел в предложении представляет собой новое слово, хотя не во всех языках слова разделяются пробелами.
«Охватывая все лингвистические нюансы, мы расширяем мировоззрение модели и даем ей возможность учиться на основе всего спектра человеческих знаний». написал Тижэнь Ван в посте «Но когда дело доходит до таких тем, как бессознательная предвзятость, я автоматически переключаюсь на английский, особенно потому, что именно там я впервые усвоил и усвоил эти идеи».
Теория Ванга правдоподобна. В конце концов, модели — это вероятностные машины. Используя множество примеров, они изучают закономерности, позволяющие делать прогнозы.
Поскольку OpenAI не получила ответа, остается только задаться вопросом, почему o1 рассматривает это песни по-французски, ох Синтетическая биология на китайском языке.