MobileDiffusion — это генерация изображений, начиная с текста. Это быстро развивающаяся область исследований, в которой используются все более совершенные и сложные модели. Однако я модели генерации текста и изображений Доступные в настоящее время решения требуют мощных настольных компьютеров или серверов для правильной работы. Это ограничило использование таких моделей на мобильных устройствах, где вычислительная мощность более ограничена.
MobileDiffusion представляет новую методологию, которая позволяет быстрое создание изображений из текстов на мобильных устройствах. Это решение основано на эффективной модели скрытой диффузии, разработанной специально для мобильных устройств. Кроме того, во время вывода используется подход одноэтапной выборки, который использует преимущества Модель ГАН для моделирования фазы шумоподавления. Это позволяет MobileDiffusion генерировать высококачественные изображения всего за 0,5 секунды с разрешением 512×512 пикселей.
Мобильная диффузионная архитектура
MobileDiffusion состоит из трех основных компонентов: кодировщика текста, диффузной нейронной сети UNet и декодера изображений. Для кодировщика текста используется CLIP-ВиТ/L14, легкая модель, подходящая для мобильных устройств. Для нейронная сеть UNet диффузии, MobileDiffusion использует комбинация блоков преобразования и блоков свертки. Эта архитектура была оптимизирована для достижения баланса между производительностью и эффективностью вычислений.
Блоки преобразования отвечают за понимание текста и состоят из слоев самообслуживания, перекрестного внимания и прямой связи. Однако эти блоки могут быть дорогостоящими в вычислительном отношении, в основном из-за операции внимания, которая требует квадратичная вычислительная мощность по сравнению с длиной последовательности. Чтобы смягчить эту проблему, MobileDiffusion использует архитектуру UNet. который помещает больше блоков преобразования в центральную часть, тем самым снижая вычислительные затраты.
Блоки свертки, особенно i Блоки ResNet, используются для извлечения признаков и потока информации. Чтобы снизить вычислительные затраты при высоких разрешениях, MobileDiffusion использует легкие отделимые извилины вместо обычных извилин. Было показано, что этот выбор обеспечивает аналогичную производительность при меньших вычислительных затратах.
Одноэтапная выборка
Помимо оптимизации архитектуры модели, MobileDiffusion использует одноэтапный подход к выборке во время вывода. Этот подход использует комбинацию предварительно обученная диффузионная модель и сеть GAN для создания высококачественных изображений.
В процессе обучения модель диффузии инициализируется с предварительно обученными весами. Это позволяет сети GAN моделировать этап шумоподавления, получая высококачественное конечное изображение. Такой подход значительно сокращает время обучения и позволяет модели сходятся менее чем за 10 000 итераций.
Выводы
Тесты на устройствах iOS и Android показали, что MobileDiffusion чрезвычайно эффективен и может генерировать высококачественные изображения всего за 0,5 секунды. Благодаря своей исключительной производительности и относительно небольшому размеру модели MobileDiffusion особенно подходит для использования на мобильных устройствах.
В заключение, MobileDiffusion представляет собой крупный прорыв в создании изображений из текста на мобильных устройствах. Благодаря своей эффективности и превосходной производительности эта технология может открыть новые возможности для использования на мобильных устройствах, улучшая взаимодействие с пользователем и решая возникающие проблемы конфиденциальности.