На протяжении десятилетий, когда люди представляли отдаленное будущее, они почти всегда отводили главную роль роботам. Роботы были представлены как надежные, полезные и даже очаровательные. Тем не менее, в течение тех же десятилетий технология оставалась неуловимой, застрявшей в фантастическом царстве научной фантастики.
Сегодня мы представляем новое достижение в робототехнике, которое приближает нас к будущему полезных роботов. Робот-трансформер 2 или РТ-2, представляет собой уникальную модель «видение-язык-действие» (VLA). А ТрансформерНа основе модели, обученной на тексте и изображениях из Интернета, RT-2 может напрямую выполнять роботизированные действия. Точно так же, как языковые модели обучаются на веб-тексте для изучения общих идей и концепций, RT-2 передает знания из веб-данных для информирования поведения роботов.
Другими словами, РТ-2 может говорить с роботом.
Реальные проблемы обучения роботов
Поиск полезных роботов всегда был геркулесовым усилием, потому что робот, способный выполнять общие задачи в мире, должен уметь справляться со сложными и абстрактными задачами в сильно меняющихся средах, особенно в тех, которых он никогда раньше не видел.
В отличие от чат-ботов, роботы должны «заземлиться» в реальном мире и своих способностях. Их обучение заключается не только в том, чтобы, скажем, узнать все, что нужно знать о яблоке: о том, как оно растет, о его физических свойствах или даже о том, что якобы упало на голову сэру Исааку Ньютону. Робот должен уметь распознавать яблоко в его контексте, отличать его от красного шара, понимать, как оно выглядит, и, прежде всего, знать, как его поднять.
Исторически сложилось так, что обучать роботов на миллиардах точек данных, из первых рук, на каждом объекте, среде, задаче и ситуации в физическом мире — перспектива настолько трудоемкая и дорогая, что для новаторов она непрактична. Обучение — дело непростое, а для роботов тем более.
Новый подход с РТ-2
Недавняя работа улучшила способность роботов рассуждать, позволив им даже использовать цепочка мыслей, способ анализа многоэтапных проблем. Внедрение моделей видения, таких как перепонка, помогли роботам лучше понять окружающую их среду. А РТ-1 показал, что Трансформеры, известные своей способностью обобщать системную информацию, могут даже помочь разным типам роботов учиться друг у друга.
Но до сих пор роботы работали со сложным набором систем, где высокоуровневые системы рассуждений и низкоуровневые системы манипулирования играли в несовершенную телефонную игру для управления роботом. Представьте, что вы думаете о том, что хотите сделать, а затем должны сказать эти действия остальному телу, чтобы заставить его двигаться. RT-2 устраняет эту сложность и позволяет одной модели не только выполнять сложные рассуждения, наблюдаемые в базовых моделях, но и выполнять действия робота. Что еще более важно, он показывает, что при небольшом количестве данных для обучения робота система способна передавать концепции, заложенные в ее языке, и данные для обучения зрения, чтобы управлять действиями робота, даже для задач, которым он никогда не обучался.
Например, если вы хотели, чтобы предыдущие системы могли выбрасывать мусор, вам нужно было явно обучить их, чтобы они могли идентифицировать мусор, а также собирать его и выбрасывать. Поскольку RT-2 способен передавать знания из большого массива веб-данных, он уже имеет представление о том, что такое мусор, и может идентифицировать его без специального обучения. У него даже есть представление о том, как выбрасывать мусор, хотя его никогда не учили этому шагу. И подумайте об абстрактной природе отходов: пакет чипсов или банановая кожура становятся отходами после того, как вы их съедите. RT-2 может понять это из своих данных обучения визуальному языку и выполнить свою работу.
Светлое будущее робототехники
Способность RT-2 преобразовывать информацию в действия обещает роботам быстрее адаптироваться к новым ситуациям и условиям. Протестировав модели RT-2 в более чем 6000 роботизированных испытаниях, команда обнаружила, что RT-2 работает так же, как наша предыдущая модель, RT-1, в задачах в своих обучающих данных или задачах «представления». И он почти удвоил свою производительность по новым невыпущенным сценариям до 62% против 32% для RT-1.
Другими словами, с RT-2 роботы могут учиться больше, чем мы, перенося изученные концепции в новые ситуации.
RT-2 не только показывает, как достижения в области искусственного интеллекта быстро распространяются на робототехнику, но и открывает огромные перспективы для более универсальных роботов. Несмотря на то, что предстоит проделать огромный объем работы, чтобы использовать полезных роботов в среде, ориентированной на человека, RT-2 показывает нам захватывающее будущее робототехники, которое у вас под рукой.
Откройте для себя всю историю на Блог Google DeepMind.