Большая битва в покере с искусственным интеллектом: боты, блефы и большие стеки • Продвижение Web 2.0

Модель o3 OpenAI выиграла пятидневный покерный турнир с девятью чат-ботами с искусственным интеллектом
Модель o3 победила, сыграв наиболее последовательную игру.
Большинство лучших языковых моделей преуспели в покере, но имели проблемы с блефом, позицией и элементарной математикой.

В цифровой схватке, никогда ранее не наблюдавшейся за столом, девять самых влиятельных мировых языковых моделей провели пять дней, играя в покер с высокими ставками.

o3 от OpenAI, Claude Sonnet 4.5 от Anthropic, Grok от X.ai, Gemini 2.5 Pro от Google, Llama 4 от Meta, DeepSeek R1, Kimi K2 от Moonshot AI, Magistral от Mistral AI и GLM 4.6 от Z.AI сыграли тысячи рук в безлимитный техасский холдем за столами по 10 и 20 долларов с 100 000 долларов наличными за штуку.

Когда модель o3 OpenAI стала богаче на 36 691 доллар в результате недельной игры в покер, это не было трофеем, а только поводом для хвастовства.

Экспериментальный PokerBattle.ai полностью контролировался ИИ, и каждому игроку давалась одна и та же начальная подсказка. Это была чистая стратегия, если стратегия — это то, что вы называете тысячами микрорешений, принимаемых машинами, которые на самом деле не понимают, как победить, проиграть или насколько унизительно потерпеть неудачу с семью двойками.

Для технического трюка это было необычайно значимо. Самые могущественные ИИ не просто блефовали и делали ставки — они адаптировались, моделировали своих оппонентов и учились справляться с двусмысленностью в реальном времени. Даже если они не играли в покер безупречно, они впечатляюще приблизились к мнению опытных игроков.

OpenAI o3 быстро показал, что у него самая стабильная рука, выиграв три из пяти крупнейших банков и придерживаясь хрестоматийной теории префлопа. Клод из Anthropic и Грок из X.com замыкают тройку лидеров с заметными доходами в $33 641 и $28 796 соответственно.

ЧИТАТЬ 10 примеров поддержки знаменитостей в социальных сетях, которая принесла большие плоды

Тем временем Llama потерял свой полный стек и досрочно выбыл. Остальная часть группы оказалась где-то посередине: Gemini из Google показала скромную прибыль, а Kimi K2 из Moonshot потеряла фишки до $86,030.

Покер уже давно стал одним из лучших аналогов тестирования общего ИИ. В отличие от шахмат или го, которые полагаются на точную информацию, покер требует от игроков мыслить в условиях неопределенности. Это отражение реального процесса принятия решений во всем, от деловых переговоров до военной стратегии, и теперь, судя по всему, Разработка чат-бота.

Постоянным выводом турнира было то, что боты часто были слишком агрессивными. Большинство предпочитает стратегии, требующие активных действий, даже в ситуациях, когда выход был бы разумнее. Они больше старались выиграть большие банки, чем избежать их проигрыша. И они ужасно блефовали не потому, что не пытались, а потому, что их блеф часто основывался на неправильном прочтении рук, а не на умном обмане.

Тем не менее, инструменты ИИ становятся умнее и выходят далеко за рамки поверхностного интеллекта. Они не просто повторяют прочитанное; Вы делаете вероятностные суждения под давлением и учитесь читать ситуацию. Это также напоминание о том, что даже у мощных моделей есть недостатки. Неправильная оценка ситуации, неопределенные выводы и забывание собственной «позиции» — это не только покерная проблема.

В реальном покер-руме вы, возможно, никогда не сядете перед языковой моделью, но велика вероятность, что вы будете взаимодействовать с ней и пытаться принимать важные решения. Эта игра была лишь пробой того, как это могло бы выглядеть.

Следите за TechRadar в Новостях Google. И Добавьте нас в качестве предпочтительного источника чтобы получать новости, обзоры и мнения наших экспертов в своих лентах. Обязательно нажмите кнопку «Подписаться»!

И ты, конечно, тоже можешь Следите за TechRadar в TikTok за новостями, обзорами, распаковками в видео-форме и получайте от нас регулярные обновления WhatsApp к.

Лучшие бизнес-ноутбуки на любой бюджет

ЧИТАТЬ Сканирование декабря: HTTP-кэширование | Центральный блог Google Поиска | Google для разработчиков

Source