OpenAI представила свою новейшую языковую модель «o1», рекламирующую достижения в области сложных навыков мышления.
В одном уведомлениеКомпания заявила, что ее новая модель O1 может сравниться с человеческими показателями на тестах по математике, программированию и научным знаниям.
Однако фактическое влияние остается спекулятивным.
Чрезвычайные требования
По данным OpenAI, o1 может достичь 89-го процентиля на соревнованиях по программированию, проводимых Codeforces.
Компания настаивает на том, что ее модель обеспечивает производительность, которая позволит ей войти в число 500 лучших студентов страны на элитном американском приглашенном экзамене по математике (AIME).
Кроме того, OpenAI сообщает, что o1 превосходит средние показатели экспертов-людей с докторской степенью на комбинированном контрольном экзамене по физике, химии и биологии.
Это экстраординарные заявления, и важно сохранять скептицизм, пока мы не увидим открытое исследование и испытания в реальных условиях.
Обучение с подкреплением
Предполагаемый прорыв — это процесс обучения с подкреплением, разработанный o1, который предназначен для того, чтобы научить модель разбивать сложные проблемы, используя подход, называемый «цепочкой мыслей».
Имитируя человеческую пошаговую логику, исправляя ошибки и корректируя стратегии перед выдачей окончательного ответа, OpenAI утверждает, что o1 развил превосходные способности к рассуждению по сравнению с традиционными языковыми моделями.
Эффекты
Неясно, как заявленные рассуждения o1 могут улучшить понимание запросов (или генерацию ответов) в математике, программировании, науке и других технических темах.
С точки зрения SEO все, что улучшает интерпретацию контента и возможность напрямую отвечать на запросы, может оказаться эффективным. Однако разумно проявлять осторожность, пока мы не увидим объективное стороннее тестирование.
OpenAI должна выйти за рамки превосходства тестов и предоставить объективные, воспроизводимые доказательства в поддержку своих утверждений. Интеграция функций o1 в ChatGPT в запланированных реальных пилотных проектах должна помочь продемонстрировать реалистичные варианты использования.
Рекомендованное изображение: JarTee/Shutterstock