- Последние модели искусственного интеллекта из Openaai, GPT O3 и O4-Mini, они галлюцинируют значительно чаще, чем их предшественники
- Повышенная сложность моделей может привести к более самоуверенным неточностям
- Высокие показатели ошибок вызывают обеспокоенность по поводу надежности ИИ в реальных приложениях
Блестящие, но не заслуживающие доверия люди являются основным продуктом художественной литературы (и истории). Та же самая корреляция также может применяться к ИИ, основанную на проверке Openaai и разделенный от New York TimesПолем Галлюцинации, воображаемые факты и прямая ложь были частью чат -ботов ИИ с момента их создания. Теоретически, улучшения в моделях должны уменьшить частоту, с которой они появляются.
Последние флагманские модели от Openaai, GPT O3 и O4-Mini предназначены для имитации человеческой логики. В отличие от своих предшественников, которые в основном сосредоточились на генерации плавного текста, Openai GPT O3 и O4-Mini построили вещи шаг за шагом. OpenAI приступил к тому, что O1 может соответствовать или превзойти результаты докторантов по химии, биологии и математике. Тем не менее, отчет OpenAI показывает некоторые разрушительные результаты для всех, кто использует ответы CHATGPT для использования номинальной стоимости.
OpenAI обнаружил, что модель GPT O3 включала галлюцинации в треть эталонного теста с публичными номерами. Это в два раза выше, чем частота ошибок предыдущей модели O1 с прошлого года. Компактная мини -модель O4 стала еще хуже и галлюцинирована в 48% подобных задач.
С тестируемыми общими знаниями для теста SimpleQA, галлюцинации выросли до 51% ответов для O3 и 79% для O4-Mini. Это не просто небольшой звук в системе. Это полный кризис идентичности. Вы могли бы подумать, что что -то, что продается как система аргументации, по крайней мере проверит вашу собственную логику, прежде чем получить ответ, но это просто не так.
Теория, которая делает раунды в исследовательском сообществе KI, заключается в том, что чем больше аргументов модель пытается, тем больше шансов уйти от рельсов. В отличие от более простых моделей, которые придерживаются прогнозов с высоким доверием, модели аргументации попадают в область, где они оценивают несколько возможных путей, объединяют различные факты и по существу импровизируют. И импровизация фактов также известна как Make -out -outt.
Вымышленные функции
Корреляция не является причинностью, и Openaai сказал, что Только Тот факт, что увеличение галлюцинаций может не быть связано с тем, что модели аргументации, естественно, хуже. Вместо этого они могут быть просто более подробными и предприимчивыми в своих ответах. Поскольку новые модели не только повторяют предсказуемые факты, но и предполагают о возможностях, граница между теорией и заводским фактом может быть размыта для ИИ. К сожалению, некоторые из этих вариантов совершенно безоговорочно из реальности.
Тем не менее, больше галлюцинаций являются противоположностью Openaai или его конкурентов, таких как Google и Anpropic из их самых прогрессивных моделей. Вызов AI -чат -ботов и ассистенты и копилоты подразумевает, что они будут полезными и не опасными. Адвокаты уже испытывали трудности с использованием CHATGPT и не заметили воображаемых судебных цитат. Кто знает, сколько таких ошибок вызвало проблемы с высокими миссиями при меньших обстоятельствах?
Возможности для галлюцинации вызвать проблему, вызвавшую проблему, быстро расширяются, когда системы ИИ вводятся в классных комнатах, офисах, больницах и государственных учреждениях. Требование ИИ может помочь разработать приложения, решить платежные вопросы или проанализировать электронные таблицы. Парадокс, однако, заключается в том, что чем более полезный ИИ становится, тем меньше места для ошибок.
Вы не можете сказать, чтобы сэкономить время и усилия, если вам нужно потратить вдвое больше, чем вы говорите. Не то чтобы эти модели не были впечатляющими. GPT O3 показал некоторое удивительное кодирование и логику. Это может даже превзойти многих людей в некотором смысле. Проблема в том, что в тот момент, когда он решает, что Авраам Линкольн организовал подкаст или что вода готовит при 80 ° F, иллюзия надежности сломалась.
Пока эти проблемы не будут решены, вы должны взять реакцию от модели ИИ с частой ложкой соли. Иногда Chatgpt немного похож на раздражающего парня во многих слишком многих встречах, на которых мы все приняли участие. Полный доверия к полной ерунде.