TensorWave развернула крупнейший в Северной Америке кластер на базе ускорителей AMD Instinct MI325X

Компания TensorWave, специализирующаяся на инфраструктуре для ИИ, объявила о развертывании масштабного кластера из 8192 GPU на базе новейших ускорителей AMD Instinct MI325X. Это крупнейшая в Северной Америке система для обучения ИИ на основе решений AMD. Особенностью кластера стало использование прямой жидкостной системы охлаждения — первый публичный проект такого масштаба с подобной технологией.

«8192 жидкостно-охлаждаемых GPU MI325X. Крупнейший тренировочный кластер на базе AMD в Северной Америке. Построен TensorWave. Готов к новым вызовам»

Ускорители AMD Instinct MI325X, официально представленные в конце прошлого года, стали одной из самых амбициозных попыток компании бросить вызов NVIDIA в сегменте ИИ-акселераторов. Каждый MI325X оснащен 256 ГБ памяти HBM3e с пропускной способностью 6 ТБ/с и обеспечивает 2,6 PFLOPS вычислений FP8 благодаря чиплетной архитектуре с 19456 потоковыми процессорами, работающими на частоте до 2,1 ГГц.

Хотя MI325X конкурирует с NVIDIA H200 при более низкой стоимости, у AMD есть ограничение — поддержка кластеров только из 8 GPU против 72 у «зеленых». TensorWave выбрала нестандартный подход, сделав ставку на тепловой запас и плотность размещения в стойках. Весь кластер построен на основе фирменной системы жидкостного охлаждения с оранжевыми (иногда желтыми?) трубками, отводящими тепло непосредственно от каждого ускорителя.

Изображение: AMD

При энергопотреблении 1000 Вт на GPU даже частичное использование такого оборудования требует серьезных инженерных решений. Всего 8192 ускорителя обеспечат совокупную пропускную способность памяти более 2 ПБ/с и примерно 21 экзафлопс производительности FP8. Однако реальная производительность сильно зависит от параллелизма модели и дизайна межсоединений.

Этот проект стал возможен после привлечения TensorWave $100 млн (8 млрд руб.) в рамках раунда финансирования Series A в мае при участии AMD Ventures и Magnetar. В отличие от большинства облачных провайдеров, ориентированных на NVIDIA, TensorWave делает ставку на решения AMD, считая, что платформа ROCm уже достаточно зрелая для полноценного обучения моделей.

Развертывание TensorWave — лишь первый этап. Компания планирует интегрировать новые ускорители MI350X на архитектуре CDNA 4 уже в этом году. Эти чипы с поддержкой FP4/FP6 и TDP до 1400 Вт потребуют еще более эффективного охлаждения, где жидкостные системы TensorWave окажутся как нельзя кстати.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Технологии