Тайно финансируемый OpenAI набор данных для сравнительного анализа, связанный с моделью o3 • Продвижение Web 2.0

Разоблачения того, что OpenAI тайно финансировала и имела доступ к набору данных сравнительного анализа FrontierMath, вызывают обеспокоенность по поводу того, использовался ли он для обучения модели рассуждения o3 AI, а также достоверности высоких оценок модели.

Помимо доступа к набору данных для сравнительного анализа, OpenAI профинансировала его создание, но этот факт был скрыт от математиков, которые участвовали в разработке FrontierMath. Epoch AI с опозданием раскрыла информацию о финансировании OpenAI только в окончательном документе, опубликованном на Arxiv.org, в котором был объявлен эталонный тест. В более ранних версиях статьи не упоминалось об участии OpenAI.

Содержание

0.1 Скриншот FrontierMath Paper
0.2 Крупный план признания
0.3 Предыдущая версия статьи, не получившая признания

1 Модель OpenAI 03 получила высокие оценки в тесте FrontierMath
2 Раскрыты дополнительные факты об OpenAI и FrontierMath
3 Ожидание ответов

Скриншот FrontierMath Paper

Крупный план признания

Тайно финансируемый OpenAI набор данных для сравнительного анализа, связанный с моделью o3

Предыдущая версия статьи, не получившая признания

Тайно финансируемый OpenAI набор данных для сравнительного анализа, связанный с моделью o3

Модель OpenAI 03 получила высокие оценки в тесте FrontierMath

Новости о тайном участии OpenAI поднимают вопросы о высоких баллах, достигнутых моделью логического ИИ o3, и вызывают разочарование в проекте FrontierMath. Epoch AI ответил прозрачно о том, что произошло и что они делают, чтобы проверить, была ли модель o3 обучена с использованием набора данных FrontierMath.

Предоставление OpenAI доступа к набору данных было неожиданным, поскольку вся его цель — протестировать модели ИИ, но это невозможно сделать, если модели заранее знают вопросы и ответы.

А почта в сабреддите r/singularity выразил это разочарование и процитировал документ, в котором утверждалось, что математики не знали об участии OpenAI:

«Frontier Math, недавний передовой математический тест, финансируется OpenAI. OpenAI якобы имеет доступ к проблемам и решениям. Это разочаровывает, поскольку эталонный тест был продан публике как средство оценки передовых моделей при поддержке известных математиков. На самом деле Epoch AI создает наборы данных для OpenAI. Они никогда раньше не раскрывали никаких связей с OpenAI».

Обсуждение на Реддите процитировал публикацию это выявило более глубокое участие OpenAI:

«Математики, создававшие проблемы для FrontierMath, не были (активно)[2] сообщил о финансировании со стороны OpenAI.

…Теперь Epoch AI или OpenAI не заявляют публично, что OpenAI имеет доступ к упражнениям, ответам или решениям. Я слышал из вторых рук, что у OpenAI есть доступ к упражнениям и ответам и что они используют их для проверки».

Тамай Бесироглу (англ.Профиль в LinkedIn), ассоциированный директор Epoch AI, признал, что OpenAI имел доступ к наборам данных, но также заявил, что существовал «запретный» набор данных, к которому у OpenAI не было доступа.

ЧИТАТЬ Escape POC Fleeme: 5 шагов для ускорения ИИ от пилотов, чтобы воздействовать

В цитируемом документе он написал:

«Здесь Тамай из Эпохи ИИ.

Мы допустили ошибку, не сказав более прозрачно об участии OpenAI. Нам было запрещено раскрывать информацию о партнерстве примерно до момента запуска o3, и, оглядываясь назад, нам следовало вести более жесткие переговоры, чтобы обеспечить прозрачность для участников тестов как можно скорее. Наш контракт специально запрещал нам раскрывать информацию об источнике финансирования и о том факте, что OpenAI имеет доступ к большей части, но не ко всему набору данных. Мы осознаем эту ошибку и стремимся добиться большего в будущем.

Что касается использования обучения: мы признаем, что OpenAI действительно имеет доступ к значительной части проблем и решений FrontierMath, за исключением невидимого для OpenAI резервного набора, который позволяет нам независимо проверять возможности модели. Однако у нас есть устная договоренность, что эти материалы не будут использоваться в обучении моделей.

OpenAI также полностью поддержала наше решение сохранить отдельный, невидимый контрольный набор — дополнительную защиту от переобучения и обеспечения точного измерения прогресса. С самого первого дня FrontierMath был задуман и представлен как инструмент оценки, и мы считаем, что эти механизмы отражают эту цель. «

Раскрыты дополнительные факты об OpenAI и FrontierMath

Эллиот Глейзер (англ.Профиль в LinkedIn/Профиль на Реддите), ведущий математик Epoch AI подтвердил, что у OpenAI есть набор данных и что им разрешено использовать его для оценки модели большого языка OpenAI o3, которая является их следующим современным ИИ, называемым моделью логического ИИ. Он высказал свое мнение о том, что высокие баллы, полученные с помощью модели o3, «законны» и что Epoch AI проводит независимую оценку, чтобы определить, имел ли o3 доступ к набору данных FrontierMath для обучения, что могло бы привести к тому, что высокие баллы модели будут другой свет.

ЧИТАТЬ Как принести модный бренд на 6 шагов на американский рынок :: RBC Pro

Он написал:

«Здесь главный математик Эпохи. Да, OAI финансировало это и имеет набор данных, который позволил им оценить o3 собственными силами. Мы еще не проверили независимо их заявление о 25%. Для этого мы в настоящее время разрабатываем резервный набор данных и сможем протестировать их модель, не сталкиваясь с ними заранее.

Мое личное мнение таково, что оценка OAI является достоверной (т. е. они не обучались на наборе данных) и что у них нет стимула лгать о результатах внутреннего сравнительного анализа. Однако мы не можем за них ручаться, пока не будет завершена наша независимая оценка».

Глейзер также имел общий что Epoch AI собирался протестировать o3, используя «удерживающий» набор данных, к которому у OpenAI не было доступа, говоря:

«Мы собираемся оценить o3 с учетом того, что OAI не сталкивался с проблемами сопротивления. Это будет герметично».

Другой почта на Reddit Глейзер описал, как был создан «набор сдерживающих факторов»:

«Мы опишем процесс более четко, когда фактически будет завершена оценка набора несогласованных задач, но мы выбираем проблемы с несогласованными задачами случайным образом из большего набора, который будет добавлен в FrontierMath. В остальном производственный процесс идентичен тому, каким он был всегда».

Ожидание ответов

Вот где будет драма до тех пор, пока не будет завершена оценка Epoch AI, которая покажет, обучил ли OpenAI свою модель рассуждения ИИ с помощью набора данных или использовал ее только для ее сравнительного анализа.

Рекомендованное изображение: Shutterstock/Антонелло Маранджи

Source link