Ранее в этом году мы упомянул что мы предоставляем возможности использования компьютеров для разработчиков через API Близнецов. Сегодня мы выпускаем Модель использования компьютера Gemini 2.5Наша новая специализированная модель, основанная на визуальном понимании и рассуждениях Gemini 2.5 Pro, которые питают агенты, способные взаимодействовать с пользовательскими интерфейсами (UI). Он превосходит основные альтернативы по нескольким маркам управления веб -и мобильным устройством, все с более низкой задержкой. Разработчики могут получить доступ к этим возможностям через API Близнецов в Google для изучения И Vertex AiПолем
Хотя модели ИИ могут взаимодействовать с программным обеспечением через структурированные API, многие цифровые задачи всегда требуют прямого взаимодействия с графическими пользовательскими интерфейсами, например, заполнять и отправлять формы. Чтобы выполнить эти задачи, агенты должны ориентироваться в веб -страницах и приложениях, а также на людях: нажав, постукивание и прокрутку. Способность изначально заполнять формы, манипулировать интерактивными элементами, такими как выпадающие и фильтры, и работать за подключениями, является следующим важным шагом в построении мощных агентов и для общего использования.
Как это работает
Основные возможности модели выявляются с помощью нового инструмента «computer_use» в API Gemini и должны использоваться в цикле. Входные данные инструмента — это потребность в пользователях, экологический скриншот и история последних действий. Вход также может указать, исключить ли функции Полный список поддерживаемых действий пользовательского интерфейса Или укажите дополнительные персонализированные функции, чтобы включить.