T5Джемма 2 — это следующая эволюция нашего семейства кодеров-декодеров на базе Gemma 3, включающая первые модели мультимодальных и длинноконтекстных кодеров-декодеров.
В отличие от T5Gemma, T5Gemma 2 использует встраивание связанных слов (как в кодере, так и в декодере), а также объединенный персональный декодер и перекрестное внимание для записи параметров модели. Он предлагает компактные предварительно обученные модели размером 270–270M (всего ~370M, исключая видеокодер), 1B–1B (~1,7B) и 4B–4B (~7B), что делает их идеальными для быстрого экспериментирования и развертывания в приложениях на устройстве.
Содержание
Фон
С оригиналом T5ДжеммаМы продемонстрировали, что можем успешно адаптировать современные предварительно обученные модели, состоящие только из декодеров, в архитектуру кодировщик-декодер, открывая двери к новой универсальности. Инициализируя веса из мощной модели, состоящей только из декодера, а затем применив непрерывное предварительное обучение, мы создали высококачественные, эффективные модели, минуя при этом вычислительные затраты на обучение с нуля.
T5Gemma 2 распространяет это на область языковых моделей видения, включив ключевые инновации из Gemma 3.
Что нового
T5Gemma 2 — это больше, чем реконверсия. Он включает в себя значительные архитектурные изменения, унаследовав при этом множество мощных функций нового поколения от семейства Gemma 3.
Архитектурные инновации для эффективности
Чтобы максимизировать эффективность в меньшем масштабе, мы ввели ключевые структурные улучшения:
- Связанные интеграции: Теперь мы связываем интеграцию между кодером и декодером. Это значительно сокращает общее количество параметров, позволяя нам разместить больше активной емкости при том же объеме памяти, что крайне важно для нашей новой компактной модели 270M-270M.
- Объединенное предупреждение: В декодере мы применяем механизм слитого внимания, объединяющий собственное и перекрестное внимание в единый уровень внимания. Это уменьшает параметры модели и архитектурную сложность, тем самым улучшая распараллеливание модели и улучшая логический вывод.
Возможности нового поколения
Взяв за основу Gemma 3, T5Gemma 2 также представляет собой значительное обновление возможностей модели:
- Мультимодальность: Модели T5Gemma 2 могут понимать и обрабатывать изображения наряду с текстом. Используя высокоэффективный видеокодер, модели могут легко выполнять визуальные ответы на вопросы и задачи мультимодального рассуждения.
- Расширенный длинный контекст: Мы значительно расширили всплывающее окно. Используя локальный и глобальный механизм переменного внимания Gemma 3, T5Gemma 2 может обрабатывать всплывающие окна, содержащие до 128 000 токенов.
- Массовая многоязычность: Эти модели, обученные на более крупном и разнообразном наборе данных, теперь «из коробки» поддерживают более 140 языков.
Производительность
T5Gemma 2 устанавливает новый стандарт того, чего могут достичь компактные модели кодеров-декодеров. Наши новые модели демонстрируют высокую производительность в ключевых областях возможностей, унаследовав мощные мультимодальные и долгоконтекстные возможности архитектуры Gemma 3.

