Google выпустила модель большого языка с открытым исходным кодом, основанную на технологии, использованной для создания Gemini, которая является мощной, но легкой и оптимизированной для использования в средах с ограниченными ресурсами, таких как ноутбук или облачная инфраструктура.
Gemma можно использовать для создания чат-бота, инструмента генерации контента и практически всего, что может делать языковая модель. Это инструмент, которого так ждали оптимизаторы.
Он выпущен в двух версиях: одна с двумя миллиардами параметров (2B), а другая с семью миллиардами параметров (7B). Количество параметров указывает на сложность модели и ее потенциальные возможности. Модели с большим количеством параметров могут обеспечить лучшее понимание языка и генерировать более сложные ответы, но они также требуют больше ресурсов для обучения и запуска.
Целью выпуска Gemma является демократизация доступа к современному искусственному интеллекту, который изначально обучен быть безопасным и ответственным, с набором инструментов для дальнейшей оптимизации его безопасности.
Джемма от DeepMind
Модель разработана так, чтобы быть легкой и эффективной, что делает ее идеальной для того, чтобы передать ее в руки большему количеству конечных пользователей.
В официальном заявлении Google отмечены следующие ключевые моменты:
- «Мы выпускаем модели гирь двух размеров: Gemma 2B и Gemma 7B. Каждый размер выпускается с предварительно обученными и настроенными инструкциями вариантами.
- Новый набор инструментов Responsible Generative AI Toolkit содержит рекомендации и необходимые инструменты для создания более безопасных приложений искусственного интеллекта с помощью Gemma.
- Мы предоставляем наборы инструментов для вывода и контролируемой точной настройки (SFT) во всех основных платформах: JAX, PyTorch и TensorFlow через встроенный Keras 3.0.
- Готовые к использованию блокноты Colab и Kaggle, а также интеграция с такими популярными инструментами, как Hugging Face, MaxText, NVIDIA NeMo и TensorRT-LLM, упрощают начало работы с Gemma.
- Предварительно обученные и настроенные модели Gemma могут работать на вашем ноутбуке, рабочей станции или в облаке Google с простым развертыванием на Vertex AI и Google Kubernetes Engine (GKE).
- Оптимизация на нескольких аппаратных платформах искусственного интеллекта обеспечивает лучшую в отрасли производительность, включая графические процессоры NVIDIA и Google Cloud TPU.
- Условия использования разрешают ответственное коммерческое использование и распространение для всех организаций, независимо от их размера».
Анализ Джеммы
Согласно анализу Ауни Ханнуна, исследователя машинного обучения в Apple, Gemma оптимизирована для обеспечения высокой эффективности и подходит для использования в средах с ограниченными ресурсами.
Ханнун заметил, что словарный запас Джеммы составляет 250 000 (250 000) токенов по сравнению с 32 000 для сопоставимых моделей. Важность этого заключается в том, что Gemma может распознавать и обрабатывать более широкий спектр слов, что позволяет ей решать задачи со сложным языком. Его анализ показывает, что такой обширный словарный запас повышает универсальность модели для разных типов контента. Он также считает, что это может помочь с математикой, программированием и другими методами.
Также было отмечено, что «веса встраивания» огромны (750 миллионов). Веса внедрения — это ссылка на параметры, которые помогают сопоставлять слова с представлениями их значений и отношений.
Важная особенность, которую он отметил, заключается в том, что веса внедрения, которые кодируют подробную информацию о значениях слов и отношениях, используются не только при обработке входной части, но и при генерации выходных данных модели. Такое совместное использование повышает эффективность модели, позволяя ей лучше использовать понимание языка при создании текста.
Для конечных пользователей это означает более точные, релевантные и контекстуально соответствующие ответы (контент) модели, что улучшает ее использование при создании контента, а также для чат-ботов и переводов.
«Словарь огромен по сравнению с другими моделями с открытым исходным кодом: 250 тыс. против 32 тыс. у Mistral 7B.
Возможно, это очень помогает с математикой/кодом/другими модальностями с тяжелым хвостом символов.
Кроме того, веса встраивания большие (около 750 млн параметров), поэтому они используются совместно с выходной головкой».
В последующем твите он также отметил оптимизацию обучения, которая приводит к потенциально более точным и точным ответам модели, поскольку позволяет модели более эффективно учиться и адаптироваться на этапе обучения.
«Нормативный вес RMS имеет смещение единицы измерения.
Вместо «х*вес» делают «х*(1+вес)».
Я предполагаю, что это оптимизация обучения. Обычно вес инициализируется значением 1, но, скорее всего, они инициализируются близко к 0. Аналогично любому другому параметру».
Далее он отметил, что существует больше оптимизаций данных и обучения, но именно эти два фактора выделяются особенно.
Создан, чтобы быть безопасным и ответственным
Важной ключевой особенностью является то, что он изначально спроектирован безопасным, что делает его идеальным для развертывания и использования. Данные обучения были отфильтрованы для удаления личной и конфиденциальной информации. Google также использовал обучение с подкреплением на основе отзывов людей (RLHF), чтобы обучить модель ответственному поведению.
Далее он был отлажен с помощью ручного повторного объединения, автоматического тестирования и проверки на возможность нежелательных и опасных действий.
Google также выпустила набор инструментов, помогающий конечным пользователям еще больше повысить безопасность:
«Мы также выпускаем новый Инструментарий ответственного генеративного искусственного интеллекта вместе с Gemma, чтобы помочь разработчикам и исследователям расставить приоритеты в создании безопасных и ответственных приложений искусственного интеллекта. В набор инструментов входят:
- Классификация безопасности: мы предлагаем новую методологию создания надежных классификаторов безопасности с минимальным количеством примеров.
- Отладка: инструмент отладки модели поможет вам изучить поведение Gemma и устранить потенциальные проблемы.
- Рекомендации: вы можете получить доступ к лучшим практикам для разработчиков моделей, основанным на опыте Google в разработке и развертывании больших языковых моделей».
Прочтите официальное заявление Google:
Джемма: Представляем новые современные открытые модели
Рекомендованное изображение Shutterstock/Photo For Everything