Google DeepMind RecurrentGemma превосходит модели Transformer • Продвижение Web 2.0

Google DeepMind опубликовал исследовательскую работу, предлагающую языковую модель под названием RecurrentGemma, которая может соответствовать или даже превосходить производительность моделей на основе преобразователей, будучи при этом более эффективной в использовании памяти, обещая производительность больших языковых моделей в средах с ограниченными ресурсами.

Исследование дает краткий обзор:

«Мы представляем RecurrentGemma, модель открытого языка, использующую новую архитектуру Griffin от Google. Гриффин сочетает линейное повторение с местным вниманием для достижения превосходных языковых навыков. Состояние имеет фиксированный размер, что снижает потребление памяти и обеспечивает эффективный вывод для длинных последовательностей. Мы предоставляем предварительно обученную модель с 2B параметрами без встраивания и вариант с настройкой инструкций. Обе модели достигают производительности, сравнимой с Gemma-2B, несмотря на то, что они обучаются с меньшим количеством токенов».

Содержание

1 Связь с Джеммой
2 Архитектура Грифона
3 Прорывы
4 Ограничения RecurrentGemma
5 Что это значит для реального мира

Связь с Джеммой

Gemma — это открытая модель, в которой используется лучшая в своем классе технология Google Gemini, но она легкая и работает на ноутбуках и мобильных устройствах. Подобно Gemma, RecurrentGemma также может работать в средах с ограниченными ресурсами. Другие сходства между Gemma и RecurrentGemma включают данные предварительного обучения, оптимизацию инструкций и RLHF (подкрепление обучения на основе обратной связи с человеком). RLHF — это способ использовать обратную связь с людьми для обучения модели генеративного ИИ самостоятельному обучению.

Архитектура Грифона

Новая модель основана на гибридной модели Griffin, анонсированной несколько месяцев назад. Гриффина называют «гибридной» моделью, поскольку она использует два типа технологий: одна позволяет ему эффективно обрабатывать длинные последовательности информации, а другая позволяет ему сосредоточиться на самых актуальных частях входных данных, что дает ему возможность обрабатывать данные. «значительно» больше данных (увеличенная пропускная способность) за тот же промежуток времени, что и модели на основе трансформатора, а также снижается задержка.

ЧИТАТЬ Как ранжировать по ключевому слову (8 шагов)

Исследование Гриффина предложило две модели: одну по имени Ястреб, а другую по имени Гриффин. В исследовательской работе Гриффина объясняется, почему это прорыв:

«…мы эмпирически подтверждаем преимущества Hawk и Griffin во времени вывода и наблюдаем меньшую задержку и значительно более высокую пропускную способность по сравнению с нашими базовыми моделями Transformer. Наконец, Хоук и Гриффин демонстрируют способность экстраполировать на более длинные последовательности, чем они были обучены, и способны эффективно учиться копировать и извлекать данные на длительных временных горизонтах. Эти результаты убедительно свидетельствуют о том, что предлагаемые нами модели представляют собой мощную и эффективную альтернативу Трансформаторам, привлекающую внимание всего мира».

Разница между Griffin и RecurrentGemma — это модификация, связанная с тем, как модель обрабатывает входные данные (входные внедрения).

Прорывы

В исследовательском документе говорится, что RecurrentGemma обеспечивает аналогичную или лучшую производительность, чем более традиционная модель преобразователя Gemma-2b (которая была обучена на 3 триллионах токенов по сравнению с 2 триллионами для RecurrentGemma). Это одна из причин, по которой исследовательская работа называется «Отойдя от моделей трансформаторов», поскольку она показывает способ достижения более высокой производительности без больших затрат ресурсов на архитектуру трансформатора.

Еще одним преимуществом перед моделями Transformer является меньшее использование памяти и более быстрое время обработки. В исследовательской работе объясняется:

«Ключевым преимуществом RecurrentGemma является то, что она имеет значительно меньший размер состояния, чем преобразователи для длинных последовательностей. Хотя кэш KV Gemma растет пропорционально длине последовательности, состояние RecurrentGemma ограничено и не увеличивается для последовательностей, длина которых превышает размер локального окна внимания, равный 2000 токенов. Таким образом, хотя самая длинная выборка, которую Gemma может сгенерировать авторегрессией, ограничена доступной памятью на хосте, RecurrentGemma может генерировать последовательности произвольной длины».

RecurrentGemma также превосходит модель Gemma Transformer по пропускной способности (объем данных, которые можно обработать, чем выше, тем лучше). Пропускная способность модели Transformer страдает от увеличения длины последовательности (увеличение количества токенов или слов), но это не относится к RecurrentGemma, которая может поддерживать высокую пропускную способность.

ЧИТАТЬ Google: мы игнорируем скрытый текст на странице

Исследование показывает:

«На рисунке 1a мы отображаем пропускную способность, достигнутую при выборке из приглашения в 2000 токенов для диапазона длины генерации. Пропускная способность рассчитывает максимальное количество токенов, которые мы можем считывать в секунду на одном устройстве TPUv5e.

…RecurrentGemma обеспечивает более высокую пропускную способность для всех принятых во внимание длин последовательностей. Пропускная способность, достигаемая RecurrentGemma, не уменьшается с увеличением длины последовательности, тогда как пропускная способность, достигаемая Gemma, уменьшается с увеличением кэша».

Ограничения RecurrentGemma

Исследование показывает, что этот подход имеет свои ограничения, поскольку производительность отстает от традиционных моделей трансформаторов.

Исследователи указывают на ограничение в обработке очень длинных последовательностей, с которыми могут справиться модели-трансформеры.

По данным газеты:

«Хотя модели RecurrentGemma очень эффективны для более коротких последовательностей, их производительность может отставать от традиционных моделей-трансформеров, таких как Gemma-2B, при обработке чрезвычайно длинных последовательностей, которые превышают локальное окно внимания».

Что это значит для реального мира

Важность этого подхода к языковым моделям заключается в том, что он предполагает наличие других способов улучшить производительность языковых моделей, потребляя при этом меньше вычислительных ресурсов в архитектуре модели без преобразователя. Это также показывает, что модель, не относящаяся к Transformer, может преодолеть одно из ограничений размеров кэша моделей Transformer, которое, как правило, приводит к увеличению использования памяти.

В ближайшем будущем это может привести к применению языковых моделей, которые смогут работать в средах с ограниченными ресурсами.

Прочтите исследовательскую работу Google DeepMind:

RecurrentGemma: сквозные преобразователи для эффективных моделей открытого языка (PDF)

Рекомендованное изображение с сайта Shutterstock/Photo For Everything

Source