Способность быстро адаптироваться к новым задачам — ключевая задача искусственного интеллекта (ИИ), встроенного в роботизированные системы. Хотя алгоритмы обучения с подкреплением, подобные тем, которые используются в ChatGPT или Gemini от Google, могут давать впечатляющие результаты, для достижения желаемого уровня квалификации часто требуются сотни тысяч попыток. Этот подход неприемлем для роботов, которые не могут позволить себе «обучаться» путем потенциально вредных проб и ошибок.
Однако группа исследователей из Северо-Западного университета разработала новый алгоритм под названием Обучение с максимальным диффузионным подкреплением (MaxDiff RL), который может революционизировать способы обучения и адаптации роботов к новым задачам. Этот инновационный подход направлен на изучение всех возможных состояний окружающей среды, позволяя роботам немедленно решать новые сценарии без необходимости длительного процесса обучения.
Содержание
За пределами независимости и идентичного распределения данных
Ключевая проблема реализации алгоритмов обучения с подкреплением в роботах заключается в том, что они полагаются на предположение о том, что данные обучения независимы и одинаково распределены. В виртуальной, бестелесной системе, такой как алгоритм рекомендаций YouTube, это условие часто выполняется: пользователи и данные их просмотра, как правило, не коррелируют.
Однако когда речь идет о роботах, воплощенных в физическом мире, это предположение уже не справедливо. «Когда вы встроены, ваш опыт должен быть каким-то образом связан», — объясняет Томас Берруэта, руководивший разработкой MaxDiff RL. Роботы существуют в определенной точке пространства и времени, а это означает, что их действия и наблюдения неизбежно будут связаны между собой.
Внедрить хаос
Чтобы преодолеть это препятствие, команда Берруэты разработала MaxDiff RL, чтобы заставить роботов вести себя как можно более смело и непринужденно во время обучения, чтобы они могли получить самый широкий набор опыта для обучения.
Этот подход отличается от предыдущих попыток, таких как обучение с подкреплением с максимальной энтропией (MaxEnt RL), которое просто рандомизирует действия, не учитывая влияние этих действий на окружающую среду и состояние самого робота. «Проблема в том, что эти действия не существуют в вакууме», — говорит Берруэта. «Автомобиль с автоматическим управлением, который учится управлять автомобилем, может элегантно припарковаться у вас на подъездной дорожке, но с такой же вероятностью он может врезаться в стену на скорости».
Достигните всех возможных состояний
Чтобы решить эту проблему, команда Берруэты сосредоточилась не на разнообразии действий, а на разнообразии изменений состояния. Роботы, работающие на MaxDiff RL, не машут случайным образом своими роботизированными суставами, чтобы посмотреть, что произойдет, а концептуализируют цели типа «Я могу добраться до этой точки передо мной», а затем пытаются определить, какие действия приведут их туда безопасно.
Этот подход основан на математической концепции эргодичности, которая гласит, что точка движущейся системы со временем посетит все части пространства, в котором движется система. Другими словами, MaxDiff RL поощряет роботов достигать всех доступных состояний в их среде.
Превышать стандартные стандарты
Чтобы проверить эффективность MaxDiff RL, исследователи использовали стандартные тесты обучения с подкреплением, такие как тест смоделированного пловца: трехсегментное тело, помещенное на землю в вязкую среду, должно научиться плавать как можно быстрее в определенном направлении.
Что ж, MaxDiff RL успешно превзошел два других современных алгоритма, NN-MPPI и SAC, которым потребовалось несколько перезагрузок, чтобы научиться перемещать пловцов. Эти предыдущие алгоритмы застряли, пытаясь повторить одни и те же варианты, и так и не продвинулись достаточно далеко, чтобы понять, что существуют эффективные альтернативы.
Напротив, MaxDiff RL смог выполнить задачу немедленно, адаптировав изученное поведение к новому сценарию. Благодаря своей конструкции, направленной на достижение всех возможных состояний, этот алгоритм потенциально может выполнить все задачи в данной среде.
На пути к реальной реализации
Несмотря на эти обнадеживающие результаты, вы не можете просто загрузить MaxDiff RL в беспилотный автомобиль и предоставить ему возможность самостоятельно исследовать все. Прежде чем мы сможем реализовать этот тип исследовательского ИИ в реальном мире, нам еще предстоит решить проблемы.
Во-первых, алгоритмы обучения с подкреплением, такие как MaxDiff RL, по-прежнему требуют начальной фазы обучения, хотя и намного короче, чем традиционные методы. Более того, исследовательское поведение может быть рискованным в неструктурированной и потенциально опасной среде, например, на общественных улицах.
Поэтому исследователи работают над интеграцией MaxDiff RL с другими подходами, такими как имитационное обучение, для создания роботизированных систем, которые смогут немедленно решать новые задачи без ущерба для безопасности. Такое сочетание исследовательских возможностей и навыков, полученных от экспертов-людей, может стать ключом к раскрытию всего потенциала ИИ, воплощенного в физическом мире.
Важность управляемых исследований
Одним из ключевых аспектов MaxDiff RL является его направленность на управляемое исследование, а не на простую рандомизацию действий. В то время как предыдущие подходы, такие как MaxEnt RL, были направлены на максимальное разнообразие действий, этот новый алгоритм фокусируется на разнообразии изменений состояний.
Это различие имеет решающее значение, поскольку оно позволяет роботам исследовать более целенаправленно и безопасно, сосредотачиваясь на конкретных целях, а не на случайных действиях. Вместо того, чтобы бесцельно плавать, роботы могут формулировать гипотезы о том, как достичь определенных состояний окружающей среды, и разумно проверять эти гипотезы.
К более адаптивному будущему роботов
Подход Берруэты и его команды представляет собой важный шаг на пути к способности роботов немедленно решать новые задачи без необходимости длительного обучения. Благодаря акценту на управляемое исследование и достижению всех возможных состояний, MaxDiff RL прокладывает путь к более адаптивным и универсальным роботизированным системам.
Хотя еще предстоит решить проблемы, прежде чем мы сможем реализовать эту технологию в реальном мире, полученные на данный момент результаты чрезвычайно многообещающие. Способность робота быстро учиться и адаптироваться к новым сценариям может совершить революцию в использовании встроенного искусственного интеллекта, обеспечивая более безопасные и эффективные приложения в различных отраслях: от автономного вождения до промышленной робототехники и других отраслей.
Источник статьи ВОЗ.