Google отмечает, что чат-боты с искусственным интеллектом в лучшем случае точны только на 69% • Продвижение Web 2.0

Google опубликовал грубую оценку того, насколько надежны сегодняшние чат-боты с искусственным интеллектом, и цифры не лестны. С его недавно представленным ФАКТЫ Эталонный пакетКомпания обнаружила, что даже лучшие модели искусственного интеллекта с трудом достигают фактической точности выше 70%. Лидер Gemini 3 Pro достиг общей точности 69%, тогда как другие ведущие системы от OpenAI, Anthropic и xAI показали еще худшие результаты. Закуска простая и неудобная. Эти чат-боты по-прежнему дают примерно каждый третий неверный ответ, даже если кажутся уверенными в себе.

Эталонный тест важен, поскольку большинство существующих тестов ИИ фокусируются на том, может ли модель выполнить задачу, а не на том, верна ли информация, которую она предоставляет. Для таких отраслей, как финансы, здравоохранение и юриспруденция, этот разрыв может дорого стоить. Беглый ответ, который звучит безопасно, но содержит ошибки, может нанести реальный вред, особенно если пользователи предполагают, что чат-бот знает, о чем говорит.

Что показывает тест Google на точность

Пакет FACTS Benchmark Suite был разработан командой Google FACTS совместно с Kaggle для непосредственной проверки фактической точности в четырех реальных приложениях. Тест измеряет параметрические знания, которые проверяют, может ли модель отвечать на вопросы, основанные на фактах, используя только то, что она узнала во время обучения. Другой оценивает эффективность поиска и проверяет, насколько хорошо модели используют веб-инструменты для получения точной информации. Третье внимание уделяется обоснованию, т. е. соответствует ли модель предоставленному документу без добавления ложных деталей. Четвертая часть посвящена мультимодальному пониманию, например правильному чтению таблиц, диаграмм и изображений.

Результаты показывают явные различия между моделями. Gemini 3 Pro возглавил рейтинг с показателем FACTS 69%, за ним следуют Gemini 2.5 Pro и ChatGPT-5 от OpenAI с почти 62%. Claude 4.5 Opus получил ~51%, а Grok 4 — ~54%. Мультимодальные задачи всегда были самой слабой областью, точность которых часто была ниже 50%. Это важно, поскольку эти задачи включают в себя чтение диаграмм, графиков или изображений, где чат-бот может легко неправильно истолковать диаграмму продаж или получить неправильную цифру из документа, что приведет к ошибкам, которые легко пропустить, но трудно исправить.

ЧИТАТЬ Quordle Today – советы и ответы на вторник, 5 декабря (игра № 680)

Суть не в том, что чат-боты бесполезны, а в том, что слепое доверие сопряжено с риском. Собственные данные Google показывают, что ИИ совершенствуется, но он все еще нуждается в проверке, защитных ограждениях и человеческом надзоре, прежде чем его можно будет рассматривать как надежный источник истины.

Source