Исследователи из Сингапурского университета технологий и дизайна (SUTD) разработали новое программное обеспечение, ориентированное на обучение с подкреплением и память с фазовыми изменениями, предназначенное для понимания сложных конструкций движения.
В предыдущей работе этот тип глубокого обучения применялся к другим играм, таким как шахматы или го, но вместо этого они решили привести алгоритм D-PPO в соответствие с требованиями Street Fighter Champion Edition II. Исследователи SUTD тренировали своего ИИ-игрока SF-R2 против компьютера в течение двух дней подряд, прежде чем обрушить его на человека-участника, которого система на базе ИИ явно победила.
Говорят, что эта работа имеет значение для науки о движении в более широком смысле. Научно-исследовательская работаи потенциально может быть использован, например, для улучшения робототехники и автономных транспортных средств. Это открывает путь к широко применимому обучению в тех областях, где машины могут соблюдать человеческие нормы и пытаться воспроизводить их и превосходить.
Готов, пл-ай-первый
Одна из ключевых вех, которую исследователи ИИ используют для измерения эффективности разрабатываемых ими систем, — это заставить их соревноваться с игроками-людьми в различных типах игр. Это происходит уже некоторое время.
В 2017 году Alpha Go AI, разработанный DeepMind, победил человека, играющего в го номер один во второй раз в мире после первая победа над Фань Хуэй предыдущий год. ИИ Microsoft сделал это в июне первая в мире идеальная женщина Pac-Man забить, а в августе мы увидели один Движок OpenAI побеждает лучших игроков Dota 2 Все время.
Эта последняя веха – победа над чемпионом Street Fighter – стала возможной благодаря улучшенному обучению и памяти о фазовых изменениях. Это форма энергонезависимой памяти, впервые разработанная HP, которая достигается за счет использования электрических зарядов для изменения участков халькогенидного стекла. Это намного быстрее, чем обычно используемая флэш-память.
«Наш подход уникален, потому что мы используем обучение с подкреплением для решения проблемы создания движений, которые превосходят движения лучших игроков-людей», — сказал ведущий исследователь Десмонд Локе. ТехЭксплор. «Это просто было невозможно при предыдущих подходах, и у этого есть потенциал изменить типы движений, которые мы можем создать.