- Исследователи лучших университетов США предупреждают, что расширяются до обучения.
- Слишком много предварительного обучения может достичь худшей работы, поскольку что -то напоминает эффект бабочки
- Чем больше вас назначают, тем больше вы становитесь чувствительными к небольшим изменениям, которые могут нарушить конечный результат
Исследователи Карнеги Меллона, Стэнфорда, Гарварда и Принстона призывают к одному из принятых основных убеждений в разработке ИИ — тем больше данных — это услуга.
Как сообщается HPCWIREНовая статья отвергает концепцию «катастрофического преувеличения», посредством которой расширенное предварительное формирование может повредить производительности модели после тонкого туалета.
Исследователи сравнили две версии модели OLMO 1B, которые прошли обучение на 2,3 триллиона токенов, а другая — 3 триллиона. Несмотря на более крупный тренировочный набор, более подробная модель сообщила о 3% хуже при таких тестах, как Alpaeval и Arc.
Достижение точки поклона
Согласно исследованию, это снижение производительности связано с явлением с названием «прогрессивная чувствительность».
С увеличением токена модель становится более хрупкой. Даже небольшие улучшения, такие как корректировки во время точной -и введение шума, могут обратить вспять более раннюю прибыль.
Авторы продемонстрировали это, введя Гаусше в предыдущие модели, и обнаружили, что производительность, которую была обучена модели, нарушила резкость.
Точка, в которой эта дополнительная подготовка завершает производительность, называется «точкой сгибания».
После достижения преимущества обучения прогнозируются риском внутренней нестабильности. Исследование показало, что этот поворотный момент часто встречается в более мелких моделях, таких как OLMO-1B, более 2,5 триллионов токенов.
«Катастрофическое преувеличение может быть неизбежным … особенно если задачи ошибочно выровнены перед тренировкой и точной — Arxiv Pret-SernПолем
Хотя исследователи не предполагают прекращения предпосылки, они считают, что разработчики должны рассмотреть, сколько предварительных искажений достаточно. Как статья приходит к выводу:
Для разработчиков искусственного интеллекта, которые стремятся к масштабе, сообщение кажется ясным: иногда меньше — это действительно больше.