- Oracle заявляет, что ее система Zettascale10 может достигать пиковой производительности в 16 зеттафлопс
- В проекте используется около 800 000 графических процессоров Nvidia, распределенных по центрам обработки данных.
- Кластер OpenAI Stargate в Техасе работает на новой инфраструктуре Oracle
Oracle объявила о создании крупнейшего в облаке суперкомпьютера искусственного интеллекта OCI Zettascale10.
Компания заявляет, что система может обеспечить пиковую производительность 16 зеттафлопс на 800 000 графических процессорах Nvidia.
Эта выходная мощность при делении равна примерно 20 петафлопс на графический процессор, что примерно эквивалентно чипу Grace Blackwell GB300 Ultra, используемому в высокопроизводительных настольных системах искусственного интеллекта.
Проектирование сети для больших рабочих нагрузок ИИ
По данным Oracle, эта платформа является основой кластера OpenAI Stargate в Абилине, штат Техас, предназначенного для обработки некоторых из наиболее требовательных рабочих нагрузок ИИ, с которыми в настоящее время сталкиваются в исследованиях и коммерческом использовании.
«Широкомасштабируемая, индивидуальная конструкция RoCE максимизирует производительность всей сети в гигаваттном масштабе, одновременно концентрируя большую часть мощности на вычислениях…», — сказал Питер Хошеле, вице-президент по инфраструктуре и промышленным вычислениям в OpenAI.
В основе системы Zettascale10 лежит сеть Oracle Acceleron RoCE, предназначенная для повышения масштабируемости и надежности операций искусственного интеллекта с интенсивным использованием данных.
Эта архитектура использует сетевые карты в качестве мини-переключателей и соединяет графические процессоры на нескольких изолированных сетевых уровнях.
Целью конструкции является уменьшение задержки между графические процессоры и позволяют заданиям продолжать работу в случае сбоя сетевого пути.
«Благодаря полнофункциональной инфраструктуре искусственного интеллекта Nvidia OCI Zettascale10 обеспечивает вычислительную структуру, необходимую для продвижения передовых исследований в области искусственного интеллекта и помогает организациям по всему миру перейти от экспериментов к промышленному искусственному интеллекту», — сказал Ян Бак, вице-президент Hyperscale в Nvidia.
Oracle утверждает, что эта структура может снизить затраты за счет упрощения уровней внутри сети, сохраняя при этом стабильную производительность на всех узлах.
Кроме того, введены линейные подключаемые и приемные оптики для снижения энергопотребления и энергопотребления без ущерба для пропускной способности.
Хотя цифры Oracle впечатляют, компания не предоставила независимого подтверждения своих заявлений о 16 Зеттафлопс.
Показатели производительности облака могут различаться в зависимости от того, как рассчитывается пропускная способность, и сравнение Oracle может быть основано на теоретических пиках, а не на устойчивых показателях.
Учитывая, что объявленное общее количество систем представляет собой сумму 800 000 топовых графических процессоров, фактическая эффективность может сильно зависеть от дизайна сети и оптимизации программного обеспечения.
Аналитики могут подождать, чтобы увидеть, обеспечит ли эта конфигурация производительность, сравнимую с ведущими кластерами искусственного интеллекта, которые уже эксплуатируются другими крупными поставщиками облачных услуг.
Благодаря Zettascale10 Oracle позиционирует себя наряду с другими крупными игроками, борющимися за создание инфраструктуры для лучших графических процессоров и инструментов искусственного интеллекта.
Компания заявляет, что меры по обеспечению суверенитета данных позволят клиентам обучать и развертывать большие модели в распределенной облачной среде Oracle.
По данным Oracle, Zettascale10 также обеспечивает эксплуатационную гибкость за счет независимого обслуживания на уровне воздушного судна и позволяет выполнять обновления с меньшим временем простоя.
«Благодаря OCI Zettascale10 мы объединяем сетевую архитектуру Oracle Acceleron RoCE OCI с инфраструктурой искусственного интеллекта нового поколения Nvidia для обеспечения мощности искусственного интеллекта в несколько гигаватт в беспрецедентном масштабе», — сказал Махеш Тиагараджан, исполнительный вице-президент Oracle Cloud Infrastructure.
«Клиенты могут создавать, обучать и развертывать свои крупнейшие модели искусственного интеллекта в производстве с меньшими затратами энергии и иметь свободу работать в распределенном облаке Oracle с надежными данными и суверенитетом искусственного интеллекта…»
Тем не менее, наблюдатели отмечают, что другие поставщики создают свои собственные крупные кластеры графических процессоров и передовые облачные системы хранения данных, что может сузить преимущество Oracle.
Эта система будет запущена в следующем году, и только тогда станет ясно, сможет ли архитектура удовлетворить потребности в масштабируемых, эффективных и надежных вычислениях ИИ.
Над HPCWire
Следите за TechRadar в Новостях Google. И Добавьте нас в качестве предпочтительного источника чтобы получать новости, обзоры и мнения наших экспертов в своих лентах. Обязательно нажмите кнопку «Подписаться»!
И ты, конечно, тоже можешь Следите за TechRadar в TikTok за новостями, обзорами, распаковками в видео-форме и получайте от нас регулярные обновления WhatsApp к.