- Nvidia и xAI сотрудничают в разработке Colossus
- xAI значительно уменьшил количество «столкновений потоков» во время обучения модели ИИ.
- Spectrum-X сыграл решающую роль в обучении семейства моделей Grok AI.
Nvidia показала, как суперкомпьютерный кластер xAI «Colossus» может держать под контролем 100 000 графических процессоров Hopper — и все это благодаря использованию сетевой платформы Spectrum-X Ethernet от производителя чипов.
Компания объявила, что Spectrum-X предназначен для обеспечения огромных возможностей производительности для гипермасштабируемых многопользовательских фабрик искусственного интеллекта, использующих сеть удаленного доступа к памяти каталогов (RDMA).
Платформа используется с момента ее запуска на Colossus, крупнейшем в мире суперкомпьютере искусственного интеллекта. Компания, принадлежащая Илону Маску, использовала кластер для обучения серии больших языковых моделей Grok (LLM), которые используются в чат-ботах, предлагаемых пользователям X.
Объект был построен всего за 122 дня в сотрудничестве с Nvidia, и в настоящее время xAI находится в процессе его расширения и планирует развернуть в общей сложности 200 000 графических процессоров Nvidia Hopper.
Обучение Грока требует большой огневой мощи.
Модели Grok AI чрезвычайно велики: Grok-1 измеряет 314 миллиардов параметров, а Grok-2 превосходит Claude 3.5 Sonnet и GPT-4 Turbo на момент своего запуска в августе.
Конечно, обучение этих моделей требует значительной производительности сети. Используя платформу Nvidia Spectrum-X, xAI не испытала деградации устаревших приложений или потери пакетов из-за «конфликтов потоков» или узких мест на путях сети AI.
Компания xAI объявила, что ей удалось поддерживать пропускную способность на уровне 95% благодаря возможностям управления перегрузкой Spectrum-X. Компания добавила, что такой уровень производительности невозможно обеспечить в таком масштабе через стандартный Ethernet.
По данным Nvidia, в традиционном Ethernet это обычно приводит к тысячам коллизий потоков данных, тогда как пропускная способность данных составляет всего 60%.
Представитель xAI заявил, что сочетание графических процессоров Hopper и Spectrum-X позволило компании «раздвинуть границы обучения моделей ИИ» и создать «сверхускоренную и оптимизированную фабрику ИИ».
«ИИ становится критически важным и требует большей производительности, безопасности, масштабируемости и экономической эффективности», — сказал Гилад Шейнер, старший вице-президент по сетевым технологиям Nvidia.
«Сетевая платформа NvidiaSpectrum-X Ethernet предназначена для того, чтобы такие новаторы, как xAI, могли быстрее обрабатывать, анализировать и выполнять рабочие нагрузки ИИ, ускоряя разработку, развертывание и вывод на рынок решений ИИ».
Частью платформы Spectrum-X является Ethernet-коммутатор Spectrum SN5600 — он поддерживает скорость портов до 800 Гбит/с и, по данным Nvidia, основан на ASIC коммутатора Spectrum 4.
Компания xAI решила объединить коммутатор Spectrum-X SN5600 с картами NVIDIA BlueField-3 SuperNIC для достижения более высокой производительности.