Nvidia объединяется со списком технологических партнеров для разработки новаторского программного обеспечения, целью которого является удвоение производительности ее флагманских графических процессоров H100 Tensor Core.
Благодаря обновлению TensorRT-LLM с открытым исходным кодом, которое должно быть выпущено в ближайшие недели, текущая система превосходит A100 в восемь раз, тогда как ранее H100 превосходили A100 только в четыре раза. Это было протестировано на GPT-J 6B, модели, используемой для обобщения статей CNN и Daily Mail.
При тестировании на Metas Llama2 LLM H100 на базе TensorRT-LLM превзошли A100 в 4,6 раза — по сравнению с 2,6x до обновления.
Nvidia H100 быстрее, чем когда-либо
Универсальность и динамика больших языковых моделей (LLM) могут затруднить пакетирование и параллельное выполнение запросов, а это означает, что некоторые запросы выполняются намного раньше, чем другие.
Чтобы решить эту проблему, Nvidia и ее партнеры внедрили в TensorRT-LLM более мощную технику планирования, называемую пакетной обработкой на лету. При этом используется тот факт, что создание текста можно разделить на несколько подзадач.
Проще говоря, вместо того, чтобы ждать завершения целого пакета задач из одного запроса, прежде чем перейти к следующему запросу, система может продолжать обрабатывать новые пакеты из разных запросов параллельно.
TensorRT-LLM включает в себя компилятор глубокого обучения TensorRT и оптимизированные ядра, этапы предварительной и постобработки, а также примитивы связи с несколькими графическими процессорами и несколькими узлами.
Результат? Революционная производительность графических процессоров Nvidia открывает путь для экспериментов с новыми большими языковыми моделями, быстрой адаптации и максимальной производительности.
Это программное обеспечение использует тензорный параллелизм, при котором отдельные весовые матрицы, в свою очередь, распределяются по нескольким устройствам, что позволяет эффективно делать выводы в масштабе; Каждая модель работает параллельно на нескольких графических процессорах и на нескольких серверах.
TensorRT-LLM также включает полностью оптимизированные и работающие версии популярных LLM, включая Llama 2, GPT-2 и GPT-3, а также Falcon, Mosaic MPT, BLOOM и десятки других. Доступ к ним можно получить через API Python.
Обновление доступно в раннем доступе и вскоре будет интегрировано в инфраструктуру Nvidia NeMo, которая является частью Nvidia AI Enterprise. Исследователи могут получить к нему доступ через платформу NeMo, портал NGC или через репозиторий исходных кодов на GitHub.