- Openais O3 победил Элона Мускуса Грока 4 в Шахе
- Магнус Карлсен предоставил кусочные комментарии о качестве логики Grok
- Grok 4 повторили ошибки, в то время как O3 стабильно играл
Турнир Ki Shaft между моделью Openas O3 и Xai’s Grok 4 пригласил многочисленные спекуляции в качестве своего рода прокси -драки между двумя компаниями и их соответствующими руководителями. Каждое сравнение с днями Deep Blue и Bobby Fischer вскоре исчезло, когда Openaai O3 Grok 4 неоднократно исключался и выигрывал четыре игры подряд в сопровождении насмешливого комментария бывшего чемпиона мира по шахматам Магнуса Карлсена и великого мастера Дэвида Хауэлла.
Последствие произошла на игровой арене Kaggle, цифровом колоссе, в котором модели искусственного интеллекта сражаются в шахматах и других играх. Турнир состоял из восьми из самых известных LLM в магазине: Operai’s O3 и O4-Mini, Google Gemini 2.5 Pro и Flash, Антропные Клауд Опус, Мухолы Глупок и Кими, и Xais Grok 4 пришли в Grak и O3, но Grachs в финальном раунде не казались подобными борьбой.
Карлсен и Хауэлл переключились между серьезными комментариями и жарким, когда производительность Грока была несколько нерегулярной. В первой игре он быстро пожертвовал своим епископом, а затем начал вести себя так, как будто он спешил пойти домой. В следующей игре для Грока все не улучшилось.
«[Grok] Таким образом, это парень в клубном турнире, который научился теории и буквально ничего не знает », — сказал Карлсен во второй игре». После этого это делает худшие ошибки. «
Выступление Грока было настолько невозможно, что Карлсен оценил его по номеру 800 ELO или чуть более новичка. Он дал O3 скромный, но респектабельный 1200 в середине большинства хобби -игроков. Хотя O3 не играл блестяще, это не нужно. Сплошные шахматы сыграли. Это не переключилось. Он преобразовал свои преимущества и выполнил классические шахматные движения.
«O3 довольно безжалостно в преобразовании; он выглядит как шахматный игрок. Грок выглядит так, как будто он выучил несколько перемещений и знает правила, но не гораздо больше», — сказал Карлсен. «Движения Грока -это шахматные движения. Они пришли в неподходящее время и в странных последовательностях».
Шахматный ИИ
Несмотря на свое осознание, шахматы не были главным пунктом турнира. Речь шла о том, как общие модели ИИ имеют дело со строгими правилами, такими как игра в шахматы. Оказывается, что они не велики, но O3 — лучший из ограниченной выборки. Если ИИ встроен во все, способность следовать правилам и точковому шаблону становится важной. Шахматы — это уникально прозрачный способ наблюдать за этим. Вы либо сделали правильный поезд, либо нет. Если модель играет хорошо, вы можете увидеть логику. В противном случае, королевы, такие как Domino Stones, падают, и игра так же запутана, как эта метафора.
Шах — это окно о том, насколько хорошо ИИ может планировать, оценивать варианты, избегать катастрофических ошибок и оставаться логически последовательными. Если Грок выбрасывает королеву, потому что она не охватывает долгосрочные последствия, что он может сделать в юридическом документе или при бронировании путешествий?
Драма добавила, что финал между Openaai и Xai был Сэм Альтман и Элон Маск в Loggerheads публично. Финал по шахматам не решал борьбу между ними, но в области общественного восприятия была открытая победа PR и ограниченный, но очень реальный комплимент Магнуса Карлсена.