T5Джемма 2 — это следующая эволюция нашего семейства кодеров-декодеров на базе Gemma 3, включающая первые модели мультимодальных и длинноконтекстных кодеров-декодеров.

В отличие от T5Gemma, T5Gemma 2 использует встраивание связанных слов (как в кодере, так и в декодере), а также объединенный персональный декодер и перекрестное внимание для записи параметров модели. Он предлагает компактные предварительно обученные модели размером 270–270M (всего ~370M, исключая видеокодер), 1B–1B (~1,7B) и 4B–4B (~7B), что делает их идеальными для быстрого экспериментирования и развертывания в приложениях на устройстве.

Фон

С оригиналом T5ДжеммаМы продемонстрировали, что можем успешно адаптировать современные предварительно обученные модели, состоящие только из декодеров, в архитектуру кодировщик-декодер, открывая двери к новой универсальности. Инициализируя веса из мощной модели, состоящей только из декодера, а затем применив непрерывное предварительное обучение, мы создали высококачественные, эффективные модели, минуя при этом вычислительные затраты на обучение с нуля.

T5Gemma 2 распространяет это на область языковых моделей видения, включив ключевые инновации из Gemma 3.

Что нового

T5Gemma 2 — это больше, чем реконверсия. Он включает в себя значительные архитектурные изменения, унаследовав при этом множество мощных функций нового поколения от семейства Gemma 3.

Архитектурные инновации для эффективности

Чтобы максимизировать эффективность в меньшем масштабе, мы ввели ключевые структурные улучшения:

  • Связанные интеграции: Теперь мы связываем интеграцию между кодером и декодером. Это значительно сокращает общее количество параметров, позволяя нам разместить больше активной емкости при том же объеме памяти, что крайне важно для нашей новой компактной модели 270M-270M.
  • Объединенное предупреждение: В декодере мы применяем механизм слитого внимания, объединяющий собственное и перекрестное внимание в единый уровень внимания. Это уменьшает параметры модели и архитектурную сложность, тем самым улучшая распараллеливание модели и улучшая логический вывод.
ЧИТАТЬ  Представление нового взгляда на мониторинг покупок и более актуальные акции в Gmail

Возможности нового поколения

Взяв за основу Gemma 3, T5Gemma 2 также представляет собой значительное обновление возможностей модели:

  • Мультимодальность: Модели T5Gemma 2 могут понимать и обрабатывать изображения наряду с текстом. Используя высокоэффективный видеокодер, модели могут легко выполнять визуальные ответы на вопросы и задачи мультимодального рассуждения.
  • Расширенный длинный контекст: Мы значительно расширили всплывающее окно. Используя локальный и глобальный механизм переменного внимания Gemma 3, T5Gemma 2 может обрабатывать всплывающие окна, содержащие до 128 000 токенов.
  • Массовая многоязычность: Эти модели, обученные на более крупном и разнообразном наборе данных, теперь «из коробки» поддерживают более 140 языков.

Производительность

T5Gemma 2 устанавливает новый стандарт того, чего могут достичь компактные модели кодеров-декодеров. Наши новые модели демонстрируют высокую производительность в ключевых областях возможностей, унаследовав мощные мультимодальные и долгоконтекстные возможности архитектуры Gemma 3.

Source