Китайские инженеры из Института интеллектуальных вычислений Alibaba Group разработали приложение искусственного интеллекта под названием Emote Portrait Live, которое может анимировать неподвижную фотографию лица и синхронизировать ее со звуковой дорожкой.

Технология, лежащая в ее основе, основана на генеративных возможностях моделей диффузии (математических моделей, которые описывают, как вещи распространяются или распространяются с течением времени), которые могут напрямую синтезировать видео голов персонажей из предоставленного изображения и любого аудиоклипа. Этот процесс позволяет избежать необходимости сложной предварительной обработки или промежуточного рендеринга, упрощая создание видео «говорящей головы».

Source