Ранее в этом году мы упомянул что мы предоставляем возможности использования компьютеров для разработчиков через API Близнецов. Сегодня мы выпускаем Модель использования компьютера Gemini 2.5Наша новая специализированная модель, основанная на визуальном понимании и рассуждениях Gemini 2.5 Pro, которые питают агенты, способные взаимодействовать с пользовательскими интерфейсами (UI). Он превосходит основные альтернативы по нескольким маркам управления веб -и мобильным устройством, все с более низкой задержкой. Разработчики могут получить доступ к этим возможностям через API Близнецов в Google для изучения И Vertex AiПолем

Хотя модели ИИ могут взаимодействовать с программным обеспечением через структурированные API, многие цифровые задачи всегда требуют прямого взаимодействия с графическими пользовательскими интерфейсами, например, заполнять и отправлять формы. Чтобы выполнить эти задачи, агенты должны ориентироваться в веб -страницах и приложениях, а также на людях: нажав, постукивание и прокрутку. Способность изначально заполнять формы, манипулировать интерактивными элементами, такими как выпадающие и фильтры, и работать за подключениями, является следующим важным шагом в построении мощных агентов и для общего использования.

Как это работает

Основные возможности модели выявляются с помощью нового инструмента «computer_use» в API Gemini и должны использоваться в цикле. Входные данные инструмента — это потребность в пользователях, экологический скриншот и история последних действий. Вход также может указать, исключить ли функции Полный список поддерживаемых действий пользовательского интерфейса Или укажите дополнительные персонализированные функции, чтобы включить.

Source

ЧИТАТЬ  Gemini Ai Google теперь является мастером покемонов