Несколько месяцев назад большая ставка на Уолл -стрит на генеративного ИИ была момент выставления счетов, когда DeepSeek прибыл на место происшествия. Несмотря на его сильно цензурный характер, Deepseek с открытым исходным кодом доказал, что модель пограничной кишки не обязательно требует миллиардов долларов и может быть вычтена в скромных ресурсах.
Он быстро обнаружил коммерческое введение гигантов, таких как Huawei, Oppo и Vivo, в то время как Microsoft, Alibaba и Tencent быстро уделили место на своих платформах. Следующей целью суммы китайской компании являются самосовершенствованные модели ИИ, которые используют подход к доходности судьи, чтобы улучшить себя.
В форме бумаги (над Блумберг), Исследователи Deepseek и Китайского университета Цинхуа, описывают новый подход, который может сделать модели искусственного интеллекта более умными и эффективными в себе. Основная технология называется критикой самообучения (SPCT), а подход технически известен как моделирование генеративного вознаграждения (GRM).
В простейшем термине это немного похоже на создание петли обратной связи в режиме реального времени. Модель искусственного интеллекта в корне улучшена за счет масштабирования размера модели во время обучения. Это требует много человеческой работы и компьютерных ресурсов. DeepSeek предлагает систему, в которой базовый «судья» оснащена своими собственными обзорами и принципами для модели ИИ при подготовке ответа на запросы пользователей.
Эта серия обзоров и принципов сравнивается со статическими правилами, которые определяются в центре модели ИИ и желаемого результата. Если есть высокая степень совпадения, генерируется сигнал вознаграждения, что эффективно заставляет ИИ работать еще лучше в следующем цикле.
Эксперты, стоящие за Бумага Относиться к следующему поколению моделей ИИ с самосовершенствованными как DeepSeek-GRM. Бессмы, которые перечислены в газете, предполагают, что эти модели лучше, чем Google Gemini, Meta Models от Openai. Согласно DeepSeek, эти модели ACI следующего поколения публикуются через канал с открытым исходным кодом.
Self -Improve AI?

Тема ИИ, которая может улучшить себя, привлекла некоторые амбициозные и противоречивые комментарии. Бывший генеральный директор Google, Эрик Шмидт, утверждал, что нам может потребоваться переключатель убийств для таких систем. «Если система может передать себя, мы должны серьезно подумать о том, чтобы снять ее» РесурсыПолем
Концепция рекурсивно -самоуверенного ИИ не совсем новая концепция. Идея ультрасетелгентной машины, которая затем может производить еще лучшие машины Смысл Назад к математике в 1965 году. Семена ИИАй «для самостоятельного, самоомодификации и рекурсивного самооращивания».
В 2024 году японский сакана Ай описал, что концепция «Ученый ИИ» о системе, которая может передать весь трубопровод исследовательской работы от начала до конца. В исследовании Бумага Эксперты из Meta, представленные в марте этого года, выпустили самостоятельные модели голоса, в которых сам ИИ действует как судья для обеспечения вознаграждения во время обучения.
Сатья Наделла, генеральный директор Microsoft, говорит, что разработка KI оптимизируется моделью O1 от OpenAI и вступила в рекурсивную фазу: «Мы используем ИИ для создания инструментов ИИ для создания лучшего ИИ». pic.twitter.com/ihufipql2c
— Царатустра (@tsarnick) 21 октября 2024 года
Внутренние тесты Meta в модели Lama 2-Ki с использованием нового типа технологии самооценки превысили конкурентов, таких как Claude 2 из моделей Anpropic, Google, Gemini Pro и Openas GPT-4. Amazon поддерживает антроп подробный То, что они описали как системы вознаграждения, неожиданный процесс «модель изменила свой собственный механизм вознаграждения напрямую».
Google не слишком далеко в этой идее. В исследовании, опубликованном в опубликованном Природа Журнал представил Google Deepmind AI-альгоритм под названием Dreamer в начале этого месяца, который может передать себя и использует игру Minecraft в качестве примера упражнения.
Эксперты IBM Работа К вашему собственному подходу, который называется обучением закрытию вычета, с моделью ИИ использует свои собственные ответы и оценивает вас на основе учебных данных для улучшения себя. Тем не менее, вся предпосылка — это не просто солнечный свет и радуга.
Исследования показывают, что, пытаясь обучить себя самоогенерированным синтетическим данным, приводит к дефектам, которые в разговорной речи называются «коллапс модели». Было бы интересно посмотреть, насколько DeepSeek делает эту идею и может ли она сделать это более экономичным, чем ее соперники с Запада.