На шаг ближе к Матрице: ИИ побеждает чемпиона-человека в Street Fighter — с революционным типом памяти, который делает его еще более мощным • Продвижение Web 2.0

Исследователи из Сингапурского университета технологий и дизайна (SUTD) разработали новое программное обеспечение, ориентированное на обучение с подкреплением и память с фазовыми изменениями, предназначенное для понимания сложных конструкций движения.

В предыдущей работе этот тип глубокого обучения применялся к другим играм, таким как шахматы или го, но вместо этого они решили привести алгоритм D-PPO в соответствие с требованиями Street Fighter Champion Edition II. Исследователи SUTD тренировали своего ИИ-игрока SF-R2 против компьютера в течение двух дней подряд, прежде чем обрушить его на человека-участника, которого система на базе ИИ явно победила.

Говорят, что эта работа имеет значение для науки о движении в более широком смысле. Научно-исследовательская работаи потенциально может быть использован, например, для улучшения робототехники и автономных транспортных средств. Это открывает путь к широко применимому обучению в тех областях, где машины могут соблюдать человеческие нормы и пытаться воспроизводить их и превосходить.

Готов, пл-ай-первый

Одна из ключевых вех, которую исследователи ИИ используют для измерения эффективности разрабатываемых ими систем, — это заставить их соревноваться с игроками-людьми в различных типах игр. Это происходит уже некоторое время.

В 2017 году Alpha Go AI, разработанный DeepMind, победил человека, играющего в го номер один во второй раз в мире после первая победа над Фань Хуэй предыдущий год. ИИ Microsoft сделал это в июне первая в мире идеальная женщина Pac-Man забить, а в августе мы увидели один Движок OpenAI побеждает лучших игроков Dota 2 Все время.

Эта последняя веха – победа над чемпионом Street Fighter – стала возможной благодаря улучшенному обучению и памяти о фазовых изменениях. Это форма энергонезависимой памяти, впервые разработанная HP, которая достигается за счет использования электрических зарядов для изменения участков халькогенидного стекла. Это намного быстрее, чем обычно используемая флэш-память.

ЧИТАТЬ Quordle Today – советы и ответы на понедельник, 30 сентября (игра № 980)

«Наш подход уникален, потому что мы используем обучение с подкреплением для решения проблемы создания движений, которые превосходят движения лучших игроков-людей», — сказал ведущий исследователь Десмонд Локе. ТехЭксплор. «Это просто было невозможно при предыдущих подходах, и у этого есть потенциал изменить типы движений, которые мы можем создать.

Больше от TechRadar Pro

Source