Hydra Host: Exacluster с 144 GPU Nvidia H200 AI

Ранее в этом месяце мы сообщали о Exacluster от ExaAILabs, кластере из 18 машин, работающих на 144 графических процессорах Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:США расследуют возможную «сингапурскую» лазейку в доступе Китая к графическим процессорам NVIDIADeepSeek-R1 запущен на NVIDIA NIMСША расследуют, занимался ли DeepSeek контрабандой графических процессоров Nvidia AI через СингапурДрайверы серии RTX 50 от Nvidia кажутся недоработанными, слишком много внимания уделяется MFGNvidia выпустила новые функции для RTX Video Super Resolution

H200, который является одним из первых кластеров на базе этих процессоров. С тех пор компания Hydra Host, которая способствовала созданию кластера, предоставила нам дополнительные сведения о системе. Кластер использует системы Lenovo с множественными настройками от Hydra Host, которые сыграли значительную роль. Машину также можно арендовать — когда она не используется владельцем — через платформу Brokkr от Hydra.

Большая вычислительная мощность

Основу кластера составляют 18 узлов Lenovo, оснащенных 144 графическими процессорами Nvidia H200 и 20 ТБ памяти HBM3E — или восемь на систему — что обеспечивает вычислительную производительность 570 FP8 PetaTOPS для ИИ. 16 узлов сконфигурированы и настроены HydraHost для обучения, которое требует массивных вычислений и производительности памяти, в то время как оставшиеся два служат узлами вывода. Кроме того, Hydra Host установила свою платформу Brokkr для предоставления, управления и удаленной аренды GPU (подробнее об этом позже).

Hydra Host сотрудничала с Computacenter для разработки высокопроизводительной сетевой архитектуры, адаптированной к потребностям кластера. В установке используется 3,2 Тбит/с InfiniBand для трафика «восток-запад» и 400 Гбит/с Ethernet для связи «север-юг», включая двойные 200 Гбит/с соединения на сервер и коммутаторы Dell Ethernet 400 Гбит/с. Сетевые инженеры Computacenter обеспечили соответствие всех компонентов эталонной архитектуре Nvidia для бесшовной совместимости.

«Мы снабдили 18 узлов Lenovo графическими процессорами H200 (16 взаимосвязанных и два узла вывода), разработали сетевую архитектуру в сотрудничестве с Computacenter и обеспечили размещение через Patmos», — пояснила Андреа Холт, представитель Hydra Host.

Кластер сам по себе довольно мощный, даже с точки зрения вычислений общего назначения. Серверы оснащены 192 96-ядерными процессорами (всего 3456 ядер) в паре с 36 ТБ памяти DDR5 и 270 ТБ твердотельного хранилища NVMe. Имеются запасные отсеки, так что пространство для хранения можно легко расширить. Суперкомпьютер использует сеть, специально созданную HydraHost.

Компания также привлекла Патмос для размещения оборудования, обеспечив достаточное количество электроэнергии (около 100 кВт) и охлаждения для энергоемких и горячих машин.

Лучшая производительность по лучшей цене

Exacluster стоит 5 миллионов долларов, в среднем 277 777 долларов за машину, что сопоставимо с одной 8-канальной платой H200, а не с полным сервером. Вот тут-то и начинается самое интересное. Кто установил такую цену?

С одной стороны, Hydra Host является близким партнером Nvidia и предлагает только графические процессоры

Thumbnail: Графический процессорГрафический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия

Nvidia в качестве услуги. Кроме того, ее программное обеспечение Brokkr оптимизировано в первую очередь для CUDA. С другой стороны, ExaAI — это компания, поддерживаемая Nvidia, поэтому она потенциально может получить льготные цены.

«Мы лучшие на рынке, предоставляя нашим клиентам правильный GPU для их нужд и по лучшей цене», — сказал Райан Хорджус, ведущий инженер по продажам в Hydra. «Этот кластер поддерживался Nvidia с точки зрения архитектуры и их программы Inception. Hydra занималась этим для Exa, как мы делаем это для других компаний».

Hydra также специализируется на создании индивидуальных решений для стартапов и даже монетизирует их машины, когда они не используются.

«Hydra помогла стартапам попасть в собственные кластеры для лучшего ценообразования за счет оптовых закупок», — добавил Хорьюс. «Они могут добиться идеального ценообразования через нашу сеть. Они также могут монетизировать серверы, когда они не используются, через платформу управления Brokkr».

Говоря о Brokkr, это программное обеспечение для управления и предоставления графических процессоров, а также платформа монетизации для графических процессоров. Она предоставляет центрам обработки данных и стартапам готовое программное решение для передачи своего оборудования в руки клиентов и получения за него оплаты, объяснил Ариэль Дешапель, главный технический директор и соучредитель Hydra.

«Одной из ее ключевых особенностей является автоматизированное предоставление bare metal и управление жизненным циклом», — описал Дешапель. «Это означает, что платформа выполняет всю работу по настройке и управлению базовой серверной ОС и прошивкой, настройке драйверов и другого вспомогательного программного обеспечения, а также запуску тестов на графических процессорах и других компонентах. Это значительно ускоряет и стандартизирует процесс поставки, сокращая время простоя серверов и графических процессоров. Это также упрощает перепродажу неиспользуемых серверов позже другим пользователям на платформе Brokkr, которые ищут bare metal GPU, если потребности в мощности изменятся».

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий


Новые комментарии

Поддерживаю. А еще если брать в разрезе Илон Маск и безопасность данных, то вообще смешно. Особенно для жителей РФ)О конфиденциальности можно забыть
  • Анон
1c пох на ваши операции, количество ядер и прочее. Умудрились написать ядро четко привязанное к Мгц. Единственный в мире продукт для 1го ядра.
  • Анон
Указан неверный диаметр вентиляторов, не 80 мм, а 100 мм. И чип не 103, а 102.
  • Анон
С прошлым обновлением как раз и появилась эта ошибка. А новое как и написано не дают скачать.
  • Анон
При включении 3D Turbo Mode у вас максимум будет доступно 8 ядер и 8 потоков всего. т.е. если у вас 16 ядерный на 32 потока то будет всего 8 ядер и 8 потоков! Странная оптимизация!
  • Анон
После скачивания вышел синий экран СУПЕР!
  • Анон
требуется указать магазин и purchase date без этого не регистрирует
  • Анон
Россия на них клала❤❤❤❤, будет называться Ладушка 2.0 )))
  • Анон
ДА у меня тоже неработает уже все Вы не знаете каким способом вернуть все обратно СПАСИ
  • Анон

Смотреть все