В индустрии искусственного интеллекта использование генеративных моделей с более широким контекстом становится все более популярным. Однако модели с большими контекстными окнами, как правило, требуют больших вычислительных ресурсов. К счастью, компания под названием Лаборатории AI21 разработали новую генеративную модель под названием Jamba, которая показывает, что это не всегда так.
В этой статье мы рассмотрим уникальные особенности Джамбы и как он использует комбинацию модельных архитектур для достижения исключительной производительности. Мы также обсудим многоязычные возможности и будущие перспективы этой инновационной технологии.
Содержание
Преимущества широких контекстов
Прежде чем мы углубимся в детали Jamba, важно понять важность больших контекстов в генеративных моделях. ТО контекстыили контекстные окна, да обратитесь к входным данным (например, текст), который учитывает модель перед созданием вывода (далее текст). Модели с Маленькие контекстные окна имеют тенденцию забывать содержимое даже самые недавние разговоры, в то время как люди с более широким контекстом избегают этой проблемы и могут лучше понимать поток данных, которые они получают.
Модель Джамбы
Джамба — это новая модель генерации и анализа текста, разработанная AI21 Labs. Его обучали сочетанию общедоступные и частные данные и может писать текст на английском, французском, испанском и португальском языках. Это делает его чрезвычайно универсальным и подходящим для различных языковых контекстов.
Одной из наиболее ярких особенностей Jamba является ее возможность управлять до 140 000 токенов во время исполнения на одном графическом процессоре с объемом памяти не менее 80 ГБ. Это соответствует примерно 105 000 слов или 210 страниц., роман значительных размеров. Для сравнения, модель Мета имеет контекстное окно на 32 000 токенов.но для этого требуется только один Графический процессор примерно с 12 ГБ памяти для работы.
Джамба Архитектура
Что делает Jamba уникальным, так это сочетание двух модельных архитектур: i Трансформатор EI State Space Models (ССМ). Трансформаторы являются предпочтительной архитектурой для сложных логических задач и используются в таких моделях, как OpenAI и Гугл Близнецы. Отличительной особенностью трансформаторов является их «механизм внимания«, что позволяет оценить важность каждой части входных данных и использовать эту информацию для генерации выходных данных.
С другой стороны, SSM сочетают в себе некоторые особенности старых моделей искусственного интеллекта, таких как рекуррентные нейронные сети и сверточные нейронные сети, для создания более эффективной в вычислительном отношении архитектуры, способной обрабатывать длинные последовательности данных.
Jamba фактически использует модель Mamba как часть своего ядра, разработанную исследователями из Принстон и Карнеги-Меллон. По словам производителя, Jamba обеспечивает в три раза большую пропускную способность, чем модели на основе трансформаторов аналогичного размера при работе с большими контекстами.
Потенциальные применения и ограничения Jamba
Jamba, хотя он был выпущен с лицензия с открытым исходным кодом, пока не предназначен для коммерческого использования. Модель не имеет никаких гарантий для предотвращения создания токсичного текста или мер по устранению потенциальной предвзятости. Однако команда разработчиков планирует выпустить более безопасную версию в ближайшие недели.
Несмотря на эти ограничения, Jamba демонстрирует потенциал архитектуры SSM даже на этой ранней стадии. Его способность легко помещаться на одном графическом процессоре и обеспечивать исключительную производительность открывает новые возможности для повышения эффективности и пропускной способности.
Источник статьи ВОЗ.