Google делает еще один шаг в области преобразования текста в видео с помощью Lumiere, новой модели искусственного интеллекта, способной создавать удивительно качественный контент.
Технический гигант, безусловно, прошел долгий путь со времен Imagen Video. Темы в Люмьер Видео больше нет этих кошмарных существ с тающими лицами. Теперь все выглядит гораздо реалистичнее. Морские черепахи выглядят как морские черепахи, мех животных имеет правильную текстуру, а люди в клипах с искусственным интеллектом (в основном) искренне улыбаются. Кроме того, очень мало странных резких движений, наблюдаемых у других генеративных ИИ для преобразования текста в видео. Движение в основном плавное, как масло. Инбар Моссери, руководитель исследовательской группы Google Research, разместила видео на своем YouTube-канале Демонстрация способностей Люмьера.
Google приложил немало усилий, чтобы контент Люмьера выглядел как можно более реалистичным. Команда разработчиков достигла этого, внедрив так называемую архитектуру Space-Time U-Net (STUNet). Технология, лежащая в основе STUNet, довольно сложна. Но Арс Техника объясняетЭто позволяет Люмьеру понимать, где находятся объекты в видео, как они движутся и изменяются, и одновременно визуализировать эти действия, что приводит к плавному созданию.
В этом отличие от других генеративных платформ, которые сначала создают ключевые кадры в клипах, а затем заполняют пробелы. Это приводит к резким движениям, которыми известна эта техника.
Хорошо оборудованный
Помимо генерации текста в видео, в наборе инструментов Lumiere имеется множество функций, включая поддержку мультимодальности.
Пользователи могут загружать исходные изображения или видео в ИИ, чтобы он мог редактировать их в соответствии со своими спецификациями. Например, вы можете загрузить изображение Девушка с жемчужной сережкой Йоханнеса Вермеера и превратите его в короткий клип, где она улыбается, а не смотрит пустым взглядом. У Люмьера также есть навык под названием Cinemagraph, который можно использовать для анимации выделенных частей изображения.
Google демонстрирует это, выбирая бабочку, сидящую на цветке. Благодаря искусственному интеллекту в выходном видео бабочка машет крыльями, а цветы вокруг нее остаются неподвижными.
Видео особенно впечатляет. Еще одна функция — рисование видео — работает аналогично Cinemagraph, поскольку ИИ может редактировать части клипов. Женское зеленое платье с рисунком можно превратить в блестящее золотое или черное. Lumiere идет еще дальше и предлагает стилизацию видео для изменения тем видео. Обычную машину, едущую по улице, можно превратить в транспортное средство, полностью сделанное из дерева или кубиков Лего.
Все еще на работе
Неизвестно, есть ли планы сделать Lumiere доступным для общественности или Google намерен реализовать его как новый сервис.
Возможно, мы могли бы представить искусственный интеллект в будущих телефонах Pixel как эволюцию редактора Magic Editor. Если вы не знакомы, Magic Editor использует «обработку AI». [to] «Интеллектуально» меняйте помещения или объекты на фотографиях на Pixel 8. Видеоинпейтинг кажется нам естественным развитием технологии.
На данный момент похоже, что команда держит все за закрытыми дверями. Каким бы впечатляющим ни был этот ИИ, у него все еще есть свои проблемы. Есть дерганая анимация. В других случаях конечности субъектов превращаются в кашу. Если вы хотите узнать больше, вы можете найти отчет Google об исследовании Люмьера на сайте Веб-сайт arXiv Корнелльского университета. Будьте осторожны: это тяжелое чтение.
И обязательно ознакомьтесь с обзором лучших генераторов искусств искусственного интеллекта на 2024 год от TechRadar.