Китайские инженеры из Института интеллектуальных вычислений Alibaba Group разработали приложение искусственного интеллекта под названием Emote Portrait Live, которое может анимировать неподвижную фотографию лица и синхронизировать ее со звуковой дорожкой.
Технология, лежащая в ее основе, основана на генеративных возможностях моделей диффузии (математических моделей, которые описывают, как вещи распространяются или распространяются с течением времени), которые могут напрямую синтезировать видео голов персонажей из предоставленного изображения и любого аудиоклипа. Этот процесс позволяет избежать необходимости сложной предварительной обработки или промежуточного рендеринга, упрощая создание видео «говорящей головы».
Задача — уловить нюансы и разнообразие движений лица человека во время синтеза видео. Традиционные методы упрощают это, накладывая ограничения на конечный видеовыход, такие как: Например, использование 3D-моделей для разграничения точек обзора или извлечение последовательностей движений головы из базовых видеороликов для управления общим движением. Однако эти ограничения могут ограничить естественность и полноту получаемой мимики.
Не без проблем
Цель исследовательской группы — разработать структуру «говорящей головы», которая сможет улавливать широкий спектр реалистичных выражений лица, включая тонкие микровыражения, и обеспечивать естественные движения головы.
Однако интеграция звука с моделями диффузии создает свои проблемы из-за неоднозначной взаимосвязи между звуком и выражениями лица.Это может привести к нестабильности видео, создаваемого моделью, включая искажения лица или дрожание между видеокадрами. Чтобы решить эту проблему, исследователи встроили в свою модель надежные механизмы управления, в частности, контроллер скорости и контроллер площади, чтобы повысить стабильность в процессе генерации.
Несмотря на потенциал этой технологии, у нее есть определенные недостатки. Этот процесс требует больше времени, чем методы, не использующие диффузионные модели. Кроме того, поскольку явных управляющих сигналов для управления движением персонажа нет, модель может непреднамеренно генерировать другие части тела, например руки, что приводит к появлению артефактов в видео.
У группы есть опубликовано статья о его работе над arXiv Сервер препринтов и Этот сайт размещает ряд других видеороликов, демонстрирующих возможности Emote Portrait Live, включая клипы с Хоакином Фениксом (в роли Джокера), Леонардо Ди Каприо и Одри Хепберн.
Вы можете посмотреть, как Мона Лиза читает монолог Розалинды из произведения Шекспира. Как вам это нравитсяАкт 3, сцена 2, ниже.