Hydra Host: Exacluster с 144 GPU Nvidia H200 AI

Ранее в этом месяце мы сообщали о Exacluster от ExaAILabs, кластере из 18 машин, работающих на 144 графических процессорах Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:США расследуют возможную «сингапурскую» лазейку в доступе Китая к графическим процессорам NVIDIADeepSeek-R1 запущен на NVIDIA NIMСША расследуют, занимался ли DeepSeek контрабандой графических процессоров Nvidia AI через СингапурДрайверы серии RTX 50 от Nvidia кажутся недоработанными, слишком много внимания уделяется MFGNvidia выпустила новые функции для RTX Video Super Resolution

H200, который является одним из первых кластеров на базе этих процессоров. С тех пор компания Hydra Host, которая способствовала созданию кластера, предоставила нам дополнительные сведения о системе. Кластер использует системы Lenovo с множественными настройками от Hydra Host, которые сыграли значительную роль. Машину также можно арендовать — когда она не используется владельцем — через платформу Brokkr от Hydra.

Большая вычислительная мощность

Основу кластера составляют 18 узлов Lenovo, оснащенных 144 графическими процессорами Nvidia H200 и 20 ТБ памяти HBM3E — или восемь на систему — что обеспечивает вычислительную производительность 570 FP8 PetaTOPS для ИИ. 16 узлов сконфигурированы и настроены HydraHost для обучения, которое требует массивных вычислений и производительности памяти, в то время как оставшиеся два служат узлами вывода. Кроме того, Hydra Host установила свою платформу Brokkr для предоставления, управления и удаленной аренды GPU (подробнее об этом позже).

Hydra Host сотрудничала с Computacenter для разработки высокопроизводительной сетевой архитектуры, адаптированной к потребностям кластера. В установке используется 3,2 Тбит/с InfiniBand для трафика «восток-запад» и 400 Гбит/с Ethernet для связи «север-юг», включая двойные 200 Гбит/с соединения на сервер и коммутаторы Dell Ethernet 400 Гбит/с. Сетевые инженеры Computacenter обеспечили соответствие всех компонентов эталонной архитектуре Nvidia для бесшовной совместимости.

«Мы снабдили 18 узлов Lenovo графическими процессорами H200 (16 взаимосвязанных и два узла вывода), разработали сетевую архитектуру в сотрудничестве с Computacenter и обеспечили размещение через Patmos», — пояснила Андреа Холт, представитель Hydra Host.

Кластер сам по себе довольно мощный, даже с точки зрения вычислений общего назначения. Серверы оснащены 192 96-ядерными процессорами (всего 3456 ядер) в паре с 36 ТБ памяти DDR5 и 270 ТБ твердотельного хранилища NVMe. Имеются запасные отсеки, так что пространство для хранения можно легко расширить. Суперкомпьютер использует сеть, специально созданную HydraHost.

Компания также привлекла Патмос для размещения оборудования, обеспечив достаточное количество электроэнергии (около 100 кВт) и охлаждения для энергоемких и горячих машин.

Лучшая производительность по лучшей цене

Exacluster стоит 5 миллионов долларов, в среднем 277 777 долларов за машину, что сопоставимо с одной 8-канальной платой H200, а не с полным сервером. Вот тут-то и начинается самое интересное. Кто установил такую цену?

С одной стороны, Hydra Host является близким партнером Nvidia и предлагает только графические процессоры

Thumbnail: Графический процессорГрафический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия

Nvidia в качестве услуги. Кроме того, ее программное обеспечение Brokkr оптимизировано в первую очередь для CUDA. С другой стороны, ExaAI — это компания, поддерживаемая Nvidia, поэтому она потенциально может получить льготные цены.

«Мы лучшие на рынке, предоставляя нашим клиентам правильный GPU для их нужд и по лучшей цене», — сказал Райан Хорджус, ведущий инженер по продажам в Hydra. «Этот кластер поддерживался Nvidia с точки зрения архитектуры и их программы Inception. Hydra занималась этим для Exa, как мы делаем это для других компаний».

Hydra также специализируется на создании индивидуальных решений для стартапов и даже монетизирует их машины, когда они не используются.

«Hydra помогла стартапам попасть в собственные кластеры для лучшего ценообразования за счет оптовых закупок», — добавил Хорьюс. «Они могут добиться идеального ценообразования через нашу сеть. Они также могут монетизировать серверы, когда они не используются, через платформу управления Brokkr».

Говоря о Brokkr, это программное обеспечение для управления и предоставления графических процессоров, а также платформа монетизации для графических процессоров. Она предоставляет центрам обработки данных и стартапам готовое программное решение для передачи своего оборудования в руки клиентов и получения за него оплаты, объяснил Ариэль Дешапель, главный технический директор и соучредитель Hydra.

«Одной из ее ключевых особенностей является автоматизированное предоставление bare metal и управление жизненным циклом», — описал Дешапель. «Это означает, что платформа выполняет всю работу по настройке и управлению базовой серверной ОС и прошивкой, настройке драйверов и другого вспомогательного программного обеспечения, а также запуску тестов на графических процессорах и других компонентах. Это значительно ускоряет и стандартизирует процесс поставки, сокращая время простоя серверов и графических процессоров. Это также упрощает перепродажу неиспользуемых серверов позже другим пользователям на платформе Brokkr, которые ищут bare metal GPU, если потребности в мощности изменятся».

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

Топ за 24 часа 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

а разве рыцари Круглого стола и викинги не были чернокожими???
  • Анон
игра с формированием ложного самомнения через подхалимаж. ---По образу и подобию .....
  • Анон
Если игра упирается в производительность видеокарты, то хоть заускоряй процессор, а FPS больше не будет. Я у себя на синтетических тестах получил лишь меньшую задержку памяти. В играх практически...
  • Анон
Всё в порядке с физикой: источник может быть меньше четверти длины волны. Даже одиночный ион в ионной ловушке может излучать видимый свет (а размер меньше 0.2нм).
  • Анон
Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
  • Анон
Странно почему не 50 долларов.
  • Анон
Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
  • Анон
Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
  • Анон
И теперь нельзя отключить авто обновление!!! Это жесть
  • Анон
Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
  • Анон

Смотреть все