Прошло почти два года с тех пор, как генеральный директор Microsoft Сатья Наделла предсказал, что генеративный искусственный интеллект возьмет на себя интеллектуальную работу, но если вы посмотрите на типичную юридическую фирму или инвестиционный банк сегодня, то увидите, что человеческая рабочая сила по-прежнему находится у руля. Несмотря на всю шумиху вокруг «рассуждения» и «планирования», новое исследование компании Mercor, занимающейся обучающими данными, объясняет, почему именно революция роботов застопорилась: ИИ просто не может справиться с беспорядком реальной работы.
Проверка реальности теории «замены»
Mercor выпустила новый жестокий тест под названием APEX-Agents. В отличие от обычных тестов, в которых ИИ просят написать стихотворение или решить математическую задачу, этот тест использует реальные запросы юристов, консультантов и банкиров. Он предполагает, что моделям предлагается выполнить комплексные, многоэтапные задачи, требующие переключения между различными типами информации.
Результаты? Даже самые лучшие модели на рынке — мы говорим о Gemini 3 Flash и GPT-5.2 — не могут достичь точности 25%. На первом месте оказался Gemini с 24%, за ним следует GPT-5.2 с 23%. Большинство остальных застряли в подростковом возрасте.
Почему ИИ не проходит «офисный тест».
Генеральный директор Mercor Брендан Фуди отмечает, что речь идет не о необработанной информации; Это контекст. В реальном мире ответы не преподносятся вам на серебряном блюде. Юристу необходимо просмотреть ветку Slack, прочитать политику в формате PDF, просмотреть электронную таблицу, а затем соединить все это вместе, чтобы ответить на вопрос о соответствии GDPR.
Люди выполняют это переключение контекста естественным образом. Оказывается, ИИ в этом ужасен. Если заставить эти модели искать информацию через «рассредоточенные» источники, они либо запутаются, дадут неверный ответ, либо вообще сдадутся.
«Ненадежный стажер»
Это небольшое облегчение для всех, кто беспокоится о безопасности своей работы. Исследование показывает, что в настоящее время ИИ действует не как опытный профессионал, а скорее как ненадежный стажер, делая все правильно примерно в четверти случаев.
Однако прогресс идет поразительно быстро. Фуди обнаружил, что всего год назад эти модели набирали от 5 до 10%. Сейчас они достигают 24%. Поэтому, хотя они еще не готовы сесть за руль, они учатся водить гораздо быстрее, чем мы ожидали. Однако революция «умственной работы» будет приостановлена до тех пор, пока боты не научатся выполнять несколько задач одновременно.

