Вчера мы анонсировали модель Gemini следующего поколения: Gemini 1.5. Помимо значительного улучшения скорости и эффективности, одним из нововведений Gemini 1.5 является длинное всплывающее окно, в котором измеряется количество токенов (мельчайших составляющих элементов, таких как части слова, изображения или видео), которые модель может обрабатывать одновременно. один раз. Чтобы помочь вам понять важность этого этапа, мы попросили команду проекта Google DeepMind объяснить, что такое длинные всплывающие окна и как эта революционная экспериментальная функция может помочь разработчикам несколькими способами.
Всплывающие окна важны, потому что они помогают моделям ИИ вызывать информацию во время сеанса. Вы когда-нибудь забывали чье-то имя посреди разговора через несколько минут после того, как он его произнес, или бежали через комнату, чтобы взять блокнот и записать номер телефона, который мы только что вам дали? Запоминание элементов потока разговора также может оказаться сложной задачей для моделей ИИ: возможно, у вас был опыт, когда чат-бот «забывал» информацию после нескольких раундов. Здесь могут пригодиться длинные всплывающие окна.
Раньше Gemini мог обрабатывать до 32 000 токенов одновременно, но 1.5 Pro — первая модель 1.5, которую мы выпускаем для раннего тестирования — имеет всплывающее окно до 1.5. миллион токены – самое длинное всплывающее окно среди всех крупномасштабных моделей фондов на сегодняшний день. Фактически, в ходе нашего исследования мы даже успешно протестировали до 10 миллионов токенов. И чем длиннее всплывающее окно, тем больше текста, изображений, аудио, кода или видео шаблон может интегрировать и обрабатывать.
«Наш первоначальный план состоял в том, чтобы достичь 128 000 токенов в контексте, и я подумал, что установить амбициозную планку было бы хорошо, поэтому я предложил 1 миллион токенов», — говорит Николай Савинов, исследователь Google DeepMind, один из тех, кто отвечает за исследование долгосрочный проект. «А теперь в наших исследованиях мы даже превысили это число в 10 раз».
Чтобы добиться такого рода скачка вперед, команде пришлось внедрить ряд инноваций в области глубокого обучения. «Был один прорыв, который привел к другому и еще одному, и каждый из них открывал новые возможности», — говорит Денис Тепляшин, инженер Google DeepMind. «А потом, когда они все сложились, мы были очень удивлены, узнав, что они могут сделать: увеличившись со 128 000 фишек до 512 000 фишек, затем до 1 миллиона фишек, а совсем недавно — до 10 миллионов токенов в нашем внутреннем исследовании».
Необработанные данные, которые может обрабатывать 1.5 Pro, открывают совершенно новые способы взаимодействия с моделью. Например, вместо обобщения документа, состоящего из нескольких десятков страниц, он может суммировать документы. тысячи страниц. Если старая модель могла помочь анализировать тысячи строк кода благодаря революционному длинному всплывающему окну, то 1.5 Pro может анализировать десятки тысяч строк кода одновременно.
«В одном тесте мы добавили всю кодовую базу и написали документацию, и это было действительно круто», — говорит исследователь Google DeepMind Машел Рид. «И был еще один тест, где он смог точно ответить на вопросы о фильме 1924 года. Шерлок младший. после того, как дали модели «посмотреть» полный 45-минутный фильм.
1.5 Pro также может рассуждать на основе данных, представленных в подсказке. «Один из моих любимых примеров сегодняшнего дня — это редкий язык — каламанг, на котором говорят менее 200 человек в мире, и по нему есть учебник грамматики», — говорит Машел. «Модель не сможет говорить на этом языке сама по себе, если вы просто попросите ее перевести ее на этот язык, но с помощью длинного всплывающего окна вы можете поместить все руководство по грамматике и несколько примеров предложений в контекст, и модель была способен научиться переводить с английского на каламанг на том же уровне, что и человек, изучающий тот же контент.
Gemini 1.5 Pro стандартно поставляется со всплывающим окном на 128 000 токенов, но ограниченная группа разработчиков и корпоративных клиентов может попробовать его со всплывающим окном до 1 миллиона токенов через AI Studio и Vertex AI в частной предварительной версии. Всплывающее окно с полным миллионом токенов требует больших вычислительных ресурсов и по-прежнему требует дополнительных оптимизаций для уменьшения задержки, над чем мы активно работаем по мере его развития.
И, глядя в будущее, команда продолжает работать над тем, чтобы сделать модель более быстрой и эффективной, уделяя особое внимание безопасности. Они также стремятся расширить длинное всплывающее окно, улучшить базовую архитектуру и внедрить новые аппаратные улучшения. «10 миллионов токенов за раз уже близки к тепловому пределу наших процессоров Tensor. Мы пока не знаем, где находится предел, и со временем модель, возможно, сможет делать еще больше. Аппаратное обеспечение продолжает работать. совершенствоваться», — говорит Николай.
Команда с нетерпением ждет возможности увидеть, каких экспериментов могут достичь разработчики и более широкое сообщество. «Когда я впервые увидел, что у нас есть миллион токенов в контексте, моим первым вопросом было: «Почему вы это используете?» «, — объясняет Машел. «Но теперь я думаю, что воображение людей расширяется, и они будут находить все более и более творческие способы использования этих новых способностей».