Как мы это построили
Эта функция стала возможной благодаря технологии генеративного искусственного интеллекта, которую мы создали специально для Virtual Try-On (VTO), которая использует метод широковещательной передачи. Потоковая передача позволяет нам генерировать каждый пиксель с нуля для создания высококачественных реалистичных изображений топов и блузок на манекенах. Однако, тестируя нашу технику диффузии платьев, мы обнаружили, что она создает две уникальные проблемы: во-первых, платья, как правило, представляют собой более детальную одежду, а во-вторых, платья имеют тенденцию закрывать большую часть человеческого тела.
Начнем с первой проблемы: платья часто более детализированы, чем простой топ, с точки зрения драпировки, силуэта, длины или формы и включают в себя все: от бретелей средней длины до мини-платьев-футляров, макси с заниженной талией и всего, что между ними. Представьте себе, что вы пытаетесь нарисовать детальное платье на маленьком холсте: в это маленькое пространство будет сложно вместить такие детали, как цветочный принт или воротник с рюшами. Увеличение изображения также не сделает детали более четкими, поскольку изначально их даже не было видно. Вы можете думать о нашей задаче VTO аналогичным образом: наша существующая модель VTO AI успешно транслировалась с использованием изображений низкого разрешения, но в нашем тестировании с платьями этот подход часто приводил к потере критического значения платья и просто переключению на высокое разрешение не помогло. Поэтому наша исследовательская группа разработала так называемую «стратегию прогрессивного обучения» для VTO, при которой трансляция начинается с изображений с низким разрешением и постепенно обучается с более высоким разрешением в процессе распространения. При таком подходе отражаются мельчайшие детали, поэтому каждая складка и отпечаток кажутся кристально четкими.
Затем, поскольку платья закрывают большую часть тела человека, чем верх, мы обнаружили, что «стирание» и «замена» платья на человеке размывает черты лица или скрывает важные детали его тела, примерно так же, как вы рисуете чей-то портрет и позже пытается стереть и заменить свое платье. Чтобы избежать этой «потери идентичности», мы разработали новую технику под названием VTO-UNet Diffusion Transformer (сокращенно VTO-UDiT), которая изолирует и сохраняет важные характеристики человека. Итак, пока мы обучаем модель с «потерей идентичности» на месте, ВТО-УДиТ также предоставляет нам виртуальный «трафарет», позволяющий переобучить модель только на человеке, сохраняя лицо и тело человека. Это дает нам гораздо более точное представление не только о платье, но и, что не менее важно, о человеке, который его носит.