Одной из основных проблем с ИИ является общеизвестно высокая проблема производительности и арифметики, особенно для таких задач, как генерация СМИ. На мобильных телефонах только несколько дорогих устройств с мощным кремнием могут выполнять набор функций при работе. Даже если он реализован в облаке в масштабе, это дорогой вопрос.
Nvidia, возможно, решила эту проблему в сотрудничестве с людьми из Массачусетского технологического института и университета Цинхуа. Команда создала гибридный инструмент генерации изображений ИИ под названием Олень (Гибридный авторегрессивный трансформатор), который по существу объединяет два наиболее часто используемых изображений ИИ. Результатом является пылающий быстрый инструмент с значительным требованием расчета.
Просто чтобы дать вам представление о том, как быстро это, я попросил создать картину попугая, играющего на бас -гитаре. Он вернулся почти через секунду со следующей картиной. Я вряд ли мог следовать панели прогресса. Когда я нажал ту же командную строку перед 3-модели Google в Gemini, потребовалось около 9-10 секунд с подключением к Интернету 200 Мбит / с.
Массивный прорыв
Когда изображения ИИ впервые сделали волны Openais Dall-E-Image Generator, изображение Google и стабильная диффузия. Этот метод может создавать изображения с чрезвычайно высоким уровнем детализации. Тем не менее, это многоэтапный подход к созданию изображений ИИ и в результате медленно и медленно дорогого.
Второй подход, который недавно получил популярность, являются автоматически соседними моделями, которые по существу работают так же, как функционируют чат-боты, и генерируют изображения с использованием техники пикселя. Это быстрее, но также и более метод устранения неполадок для создания изображений с ИИ.
Команда MIT объединила оба метода в один пакет под названием Hard. Он основан на модели степени автора для прогнозирования сжатых систем изображений как дискретных токенов, в то время как небольшая диффузионная модель обходит остальное, чтобы компенсировать потерю качества. Общий подход уменьшает количество шагов с более чем двух десятков до восьми шагов.
Эксперты, лежащие в основе жестких, утверждают, что «он может создавать или превышать картины с качеством состояния -ф -арт -диффузионных моделей, но делать это примерно в девять раз быстрее». Вряд ли объединяет автомобильную модель с диапазоном параметров 700 миллионов и небольшой диффузионной модели, которая может обрабатывать 37 миллионов параметров.

Решение кризиса стоимости
Интересно, что этот гибридный инструмент смог создавать изображения, которые соответствовали качеству моделей верхних полков с объемом параметров 2 миллиарда. Самое главное, что Харт смог достичь этой вехи в девять раз быстрее, в то время как потребовалось 31% меньше расчетных ресурсов.
По словам команды, подход Deep Capital может работать по телефону и ноутбукам на местном уровне, что является большой победой. До сих пор самые популярные продукты массового рынка, такие как CHATGPT и Gemini, создают интернет -соединение для генерации изображений, поскольку компьютер происходит на облачных серверах.
В тестовом видео команда представила его нативным на ноутбуке MSI с процессором Intel Core Series и графической картой Nvidia Geforce RTX. Это комбинация, которую вы можете найти там для большинства игровых ноутбуков, не тратя целое состояние, пока она есть.

Hard может создавать соотношение 1: 1 страницы в респектабельном разрешении 1024 x 1024 пикселей. Уровень детализации на этих изображениях впечатляет, как и стилистические вариации и точность ландшафта. Во время их испытаний команда обнаружила, что гибридный инструмент KI был в три -шесть раз быстрее и предлагался в семи раз выше пропускной способности.
Будущий потенциал является захватывающим, особенно при интеграции изображений Харта в голосовые модели. «В будущем вы можете взаимодействовать с равномерной генеративной моделью с равномерным видением, попросив ее показать промежуточные шаги, которые необходимы для составления предмета мебели», — говорит команда.
Вы уже изучите эту идею и даже планируете проверить сложный подход к аудио и тестированию Видеогенизация. Вы можете попробовать это в MITS Веб -панельПолем
Некоторые грубые края
Обратите внимание, что Hard — это исследовательский проект, который все еще находится на ранних этапах, прежде чем мы рассмотрим качественные дебаты. С технической стороны есть некоторые проблемы, которые подчеркиваются командой, такие как: B. Накладные расходы во время вывода и учебного процесса.

Проблемы могут быть исправлены или упущены из виду, потому что они немного в более широкой схеме вещей. Ввиду простых преимуществ, которые признают арифметическую эффективность, скорость и задержку, вы можете оставаться только без важных проблем с производительностью.
За короткое время, чтобы тестировать, я был поражен темпами генерации изображений. Я вряд ли наткнулся на сценарий, в котором бесплатный веб -инструмент занял более двух секунд, чтобы создать картинку. Даже с запросами, которые включают три абзаца (примерно 200 слов), Харт смог создать изображения, которые надежно несут ответственность за описание.

Помимо описательной точности, на картинках было много деталей. Тем не менее, твердый страдает от типичных ошибок генератора изображений ИИ. Он борется с цифрами, основными представлениями, такими как употребление пищи, консистенция характера и провал перспективы.
Фоторализм в человеческом контексте — это область, в которой я заметил явные неудачи. В некоторых случаях концепция основных объектов просто делала неправильное, чтобы запутать кольцо с ожерельем. В целом, однако, эти ошибки были далеко, мало и принципиально ожидались. Здоровая группа инструментов ИИ по -прежнему не может понять это, хотя это было уже некоторое время.
В целом, я особенно доволен огромным потенциалом жесткого. Было бы интересно посмотреть, сделает ли с Nvidia продукт из него или просто применить подход гибридного генерации изображений ИИ в существующем продукте. В любом случае, это понимание очень многообещающего будущего.