Улучшенное длинное всплывающее окно может даже извлекать информацию из нескольких документов, когда вы отвечаете на один запрос. На боковой панели Документов я попросил помочь написать образец письма потенциальному кандидату. В подсказке я связал документ с описанием вакансии и портфолио кандидата в формате PDF, оба на моем Диске. Я сразу получил электронное письмо. проект, в котором учтены соответствующие детали обоих документов.
Однако Gemini 1.5 Pro — не единственная наша блестящая новая модель: мне также удалось опробовать недавно анонсированную Imagen 3, нашу модель преобразования текста в изображение высочайшего качества. Одной из новых способностей, которая меня заинтересовала, была способность генерировать текст и декоративные буквы, поэтому я попробовал ее. Я начал с того, что попросил стилизованный алфавит — как буквы, написанные джемом на тосте или с серебряными воздушными шарами, парящими в небе. Imagen 3 создал полный алфавит букв, который я затем мог использовать для написания своих собственных (вкусных) меню.
После перерыва в Imagen 3 я продолжил работу над новыми демо-версиями Gemini. В одном из них я мог открыть оверлей Gemini на телефоне Android и задавать вопросы о том, что было на экране. Это действительно показало, что мы не только расширяем возможности, которые вы можете задать Gemini, но и учитываем контекст Gemini, чтобы он мог предвидеть ваши потребности и давать полезные советы.
Примером использования здесь было длинное руководство по духовке. Будь то демо или реальная жизнь, я не хотел бы читать это. Вместо того, чтобы просмотреть документ, я посмотрел на Gemini и сразу же получил предложение «Запросить этот PDF-файл». Я проверил вопросы типа «как обновить часы» и быстро получил точные ответы. Это работало так же хорошо с видео на YouTube. Вместо просмотра 20-минутного видео с тренировкой я задал быстрый вопрос о том, как модифицировать планку, получил ответ и направился к следующей демонстрации, где тестировал новый режим чата под названием Gemini Live, который позволяет вам общаться с Gemini Live. внутри приложения, ввод текста не требуется.
Общение с Gemini отличалось от традиционного интерфейса чат-бота: ответы Gemini гораздо более разговорные, чем абзацы текста и маркированные списки, которые вы обычно получаете. В своей демонстрации я узнал, что Gemini можно даже прервать в середине ответа. Попросив список занятий для детей на летних каникулах, я смог прервать список предложений и углубиться в то, какие материалы мне понадобятся, чтобы покрасить рубашку.
Демонстрация Project Astra – или «продвинутого адаптивного агента для просмотра и речи» – пошла еще дальше, чтобы показать, в каком направлении движутся наши проекты диалогового искусственного интеллекта.