- Gemini Robotics — новая модель
- Он фокусируется на физическом мире и используется роботами
- Это визуально, интерактивно и общее
Google Gemini хорош во многих вещах, которые проходят на экране, включая генеративный текст и изображения. Тем не менее, новейшая модель Google Robotics — это модель действия языка зрения, которая переносит генеративный ИИ в физический мир и может значительно ускорить породу гуманоидной революции робота.
Близнечные робототехники, которая DeepMind Google был представлен в средуУлучшает навыки Близнецов в трех ключевых областях:
- навык
- Интерактивность
- обобщение
Каждый из этих трех аспектов оказывает значительное влияние на успех робототехники на рабочем месте и неизвестной среды.
Обобщение позволяет роботу, обширным знаниям о мире и вещах Близнецов, применять его к новым ситуациям и выполнять задачи, которые никогда не обучались. В видео исследователи показывают несколько рук робота, которые контролируются робототехникой Gemini, баскетбольной игрой на столовом, и спрашивают, что «баскетбольный данк».
Хотя робот никогда не видел игру раньше, он взял на себя маленький апельсиновый мяч и пробил его через пластиковую сеть.
Google Gemini Robotics также делает роботов более интерактивными и способными реагировать не только на изменение словесных задач, но и на непредсказуемые условия.
В другом видео исследователи попросили робота поместить виноград в миску бананов, но затем они переместили миску, в то время как рука робота приспосабливалась и все же удалось поставить виноград в миску.
Google также продемонстрировал умные навыки робота, с которыми он решал такие вещи, как игра в Tic-Tac на деревянной доске, удаление доски и складывающуюся бумагу в Origami.
Вместо того, чтобы тренировать часы для каждой задачи, роботы реагируют на почти постоянные инструкции по естественному языку и выполняют задачи без инструкций. Это впечатляюще видеть.
Конечно, это не нова, чтобы добавить ИИ к робототехнике.
В прошлом году Openaai объединила партнерство с фигуром AI для разработки гуманоидального робота, который может выполнять задачи на основе устных инструкций. Как и в случае с робототехникой Близнецов, визуальная модель голоса на рисунке 01 работает с моделью языка Openai, чтобы вести обсуждения о задачах и изменяющихся приоритетах.
В демонстрации гуманоидный робот находится перед блюдами и оттоком. Спросите, что он видит, что перечисляет, но затем собеседник меняет задачи и просит что -то съесть. Не пропуская ни одного удара, робот поднимает яблоко и дает его ему.
В то время как большая часть того, что Google показал в видео, вынужденные роботизированные руки и руки, которые разрабатывают различные физические задачи, существуют жгучие планы. Google работает с партнерством с Апплинис Добавьте новую модель к его роботу Apollo Humanoid.
Google объединяет точки с дополнительным программированием, новой расширенной визуальной голосовой моделью под названием Gemini Robotics-Er (воплощенный аргумент).
Gemini Robotics-Er улучшит пространственное мышление робототехники, а разработчики роботов помогут подключать модели с существующими контроллерами.
Это также должно улучшить лету мухи и позволить роботам быстро выяснить, как они могут захватить и использовать неизвестные объекты. Google называет Gemini Rotbotics как сквозное решение и утверждает, что «все шаги необходимы для управления роботом непосредственно за пределами коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода».
Google предоставляет несколько бизнес-компаний, ориентированных на бизнес и исследования, в том числе Boston Dynamics (производители Atlas), гибкие роботы и гибкие роботы, модель робототехники Gemini.
В целом, это потенциальное благословение для разработчиков гуманоидной робототехники. Однако, поскольку большинство из этих роботов предназначены для заводов или в лаборатории, в вашем доме может потребоваться некоторое время, прежде чем у вас появится робот, вызванного Близнецом.