OpenAI представила свою новейшую языковую модель «o1», рекламирующую достижения в области сложных навыков мышления.

В одном уведомлениеКомпания заявила, что ее новая модель O1 может сравниться с человеческими показателями на тестах по математике, программированию и научным знаниям.

Однако фактическое влияние остается спекулятивным.

Чрезвычайные требования

По данным OpenAI, o1 может достичь 89-го процентиля на соревнованиях по программированию, проводимых Codeforces.

Компания настаивает на том, что ее модель обеспечивает производительность, которая позволит ей войти в число 500 лучших студентов страны на элитном американском приглашенном экзамене по математике (AIME).

Кроме того, OpenAI сообщает, что o1 превосходит средние показатели экспертов-людей с докторской степенью на комбинированном контрольном экзамене по физике, химии и биологии.

Это экстраординарные заявления, и важно сохранять скептицизм, пока мы не увидим открытое исследование и испытания в реальных условиях.

Обучение с подкреплением

Предполагаемый прорыв — это процесс обучения с подкреплением, разработанный o1, который предназначен для того, чтобы научить модель разбивать сложные проблемы, используя подход, называемый «цепочкой мыслей».

Имитируя человеческую пошаговую логику, исправляя ошибки и корректируя стратегии перед выдачей окончательного ответа, OpenAI утверждает, что o1 развил превосходные способности к рассуждению по сравнению с традиционными языковыми моделями.

Эффекты

Неясно, как заявленные рассуждения o1 могут улучшить понимание запросов (или генерацию ответов) в математике, программировании, науке и других технических темах.

С точки зрения SEO все, что улучшает интерпретацию контента и возможность напрямую отвечать на запросы, может оказаться эффективным. Однако разумно проявлять осторожность, пока мы не увидим объективное стороннее тестирование.

OpenAI должна выйти за рамки превосходства тестов и предоставить объективные, воспроизводимые доказательства в поддержку своих утверждений. Интеграция функций o1 в ChatGPT в запланированных реальных пилотных проектах должна помочь продемонстрировать реалистичные варианты использования.

ЧИТАТЬ  Личный AI-ассистент за пару кликов: новый инструмент на основе нейросетей

Рекомендованное изображение: JarTee/Shutterstock

Source