Одной из основных проблем с ИИ является общеизвестно высокая проблема производительности и арифметики, особенно для таких задач, как генерация СМИ. На мобильных телефонах только несколько дорогих устройств с мощным кремнием могут выполнять набор функций при работе. Даже если он реализован в облаке в масштабе, это дорогой вопрос.

Nvidia, возможно, решила эту проблему в сотрудничестве с людьми из Массачусетского технологического института и университета Цинхуа. Команда создала гибридный инструмент генерации изображений ИИ под названием Олень (Гибридный авторегрессивный трансформатор), который по существу объединяет два наиболее часто используемых изображений ИИ. Результатом является пылающий быстрый инструмент с значительным требованием расчета.

Просто чтобы дать вам представление о том, как быстро это, я попросил создать картину попугая, играющего на бас -гитаре. Он вернулся почти через секунду со следующей картиной. Я вряд ли мог следовать панели прогресса. Когда я нажал ту же командную строку перед 3-модели Google в Gemini, потребовалось около 9-10 секунд с подключением к Интернету 200 Мбит / с.

С / жестким

Массивный прорыв

Когда изображения ИИ впервые сделали волны Openais Dall-E-Image Generator, изображение Google и стабильная диффузия. Этот метод может создавать изображения с чрезвычайно высоким уровнем детализации. Тем не менее, это многоэтапный подход к созданию изображений ИИ и в результате медленно и медленно дорогого.

Второй подход, который недавно получил популярность, являются автоматически соседними моделями, которые по существу работают так же, как функционируют чат-боты, и генерируют изображения с использованием техники пикселя. Это быстрее, но также и более метод устранения неполадок для создания изображений с ИИ.

ЧИТАТЬ  Как получить доступ к Google Analytics API через Python

Демонстрация на поступке для жесткого: эффективное визуальное производство с гибридным аутогрессивным трансформатором

Команда MIT объединила оба метода в один пакет под названием Hard. Он основан на модели степени автора для прогнозирования сжатых систем изображений как дискретных токенов, в то время как небольшая диффузионная модель обходит остальное, чтобы компенсировать потерю качества. Общий подход уменьшает количество шагов с более чем двух десятков до восьми шагов.

Эксперты, лежащие в основе жестких, утверждают, что «он может создавать или превышать картины с качеством состояния -ф -арт -диффузионных моделей, но делать это примерно в девять раз быстрее». Вряд ли объединяет автомобильную модель с диапазоном параметров 700 миллионов и небольшой диффузионной модели, которая может обрабатывать 37 миллионов параметров.

Разработка обучения изображению для жестких.
С / жестким

Решение кризиса стоимости

Интересно, что этот гибридный инструмент смог создавать изображения, которые соответствовали качеству моделей верхних полков с объемом параметров 2 миллиарда. Самое главное, что Харт смог достичь этой вехи в девять раз быстрее, в то время как потребовалось 31% меньше расчетных ресурсов.

По словам команды, подход Deep Capital может работать по телефону и ноутбукам на местном уровне, что является большой победой. До сих пор самые популярные продукты массового рынка, такие как CHATGPT и Gemini, создают интернет -соединение для генерации изображений, поскольку компьютер происходит на облачных серверах.

В тестовом видео команда представила его нативным на ноутбуке MSI с процессором Intel Core Series и графической картой Nvidia Geforce RTX. Это комбинация, которую вы можете найти там для большинства игровых ноутбуков, не тратя целое состояние, пока она есть.

Сравнительный анализ изображений ИИ.
С / жестким

Hard может создавать соотношение 1: 1 страницы в респектабельном разрешении 1024 x 1024 пикселей. Уровень детализации на этих изображениях впечатляет, как и стилистические вариации и точность ландшафта. Во время их испытаний команда обнаружила, что гибридный инструмент KI был в три -шесть раз быстрее и предлагался в семи раз выше пропускной способности.

ЧИТАТЬ  Я держал будущее хранения данных в своих руках, и оно не могло выглядеть странным: 2024 год может стать годом, когда хранение ДНК станет массовым явлением, и это не могло наступить раньше.

Будущий потенциал является захватывающим, особенно при интеграции изображений Харта в голосовые модели. «В будущем вы можете взаимодействовать с равномерной генеративной моделью с равномерным видением, попросив ее показать промежуточные шаги, которые необходимы для составления предмета мебели», — говорит команда.

Вы уже изучите эту идею и даже планируете проверить сложный подход к аудио и тестированию Видеогенизация. Вы можете попробовать это в MITS Веб -панельПолем

Некоторые грубые края

Обратите внимание, что Hard — это исследовательский проект, который все еще находится на ранних этапах, прежде чем мы рассмотрим качественные дебаты. С технической стороны есть некоторые проблемы, которые подчеркиваются командой, такие как: B. Накладные расходы во время вывода и учебного процесса.

Неудачи жестких.
Хард / Надим Сарвар

Проблемы могут быть исправлены или упущены из виду, потому что они немного в более широкой схеме вещей. Ввиду простых преимуществ, которые признают арифметическую эффективность, скорость и задержку, вы можете оставаться только без важных проблем с производительностью.

За короткое время, чтобы тестировать, я был поражен темпами генерации изображений. Я вряд ли наткнулся на сценарий, в котором бесплатный веб -инструмент занял более двух секунд, чтобы создать картинку. Даже с запросами, которые включают три абзаца (примерно 200 слов), Харт смог создать изображения, которые надежно несут ответственность за описание.

ИИ -изображения, которые генерируются с жесткой.
Хард / Надим Сарвар

Помимо описательной точности, на картинках было много деталей. Тем не менее, твердый страдает от типичных ошибок генератора изображений ИИ. Он борется с цифрами, основными представлениями, такими как употребление пищи, консистенция характера и провал перспективы.

Фоторализм в человеческом контексте — это область, в которой я заметил явные неудачи. В некоторых случаях концепция основных объектов просто делала неправильное, чтобы запутать кольцо с ожерельем. В целом, однако, эти ошибки были далеко, мало и принципиально ожидались. Здоровая группа инструментов ИИ по -прежнему не может понять это, хотя это было уже некоторое время.

ЧИТАТЬ  Панель инструментов агентства Google Business Profile 101

В целом, я особенно доволен огромным потенциалом жесткого. Было бы интересно посмотреть, сделает ли с Nvidia продукт из него или просто применить подход гибридного генерации изображений ИИ в существующем продукте. В любом случае, это понимание очень многообещающего будущего.






Source