Представлен новый стандарт OISA для суперузлов с 128 GPU в одном шкафу

Традиционные серверы обычно оснащаются 2-8 ускорителями, но масштабы кластеров для ИИ-вычислений стремительно растут, достигая сотен, тысяч, десятков тысяч и даже сотен тысяч карт. В связи с этим архитектура суперузлов с мощными возможностями межсоединений становится ключевым направлением.

На платформе совместных инноваций OISA компании Moore Threads (摩尔线程), Китайская академия телекоммуникационных исследований (China Mobile Research Institute) и лаборатория Чжэцзян (之江实验室) официально представили «Технические спецификации эталонного проекта высокоплотного суперузла OISA».

Эта спецификация предлагает комплексное решение для преодоления узких мест в межсоединениях, проблем с энергоснабжением и охлаждением в современных центрах ИИ-вычислений, поддерживая создание высокопроизводительных и независимо контролируемых кластеров.

Проект OISA для высокоплотных суперузлов смело внедряет решение с кабелями большого размера и высокой плотности. На основе распространённых межсоединений на 32-64 карты он реализует полную взаимосвязь 128 карт в стандартном шкафу шириной в одну стойку, с поддержкой расширения до 256 карт путём объединения шкафов.

На уровне базового протокола спецификация использует нативную поддержку семантики памяти на основе OISA 2.0, что позволяет осуществлять беспрепятственный доступ к данным между узлами. В сочетании с инновационной технологией реконструкции пакетов это выводит пропускную способность между картами на уровень терабайт в секунду, сокращая задержки до сотен наносекунд.

Сегодня энергопотребление одной GPU-карты для вычислений уже достигло 700 Вт и даже превышает 1000 Вт, а мощность, потребляемая целым шкафом, приближается к 350 кВт и более.

Эталонный проект OISA кардинально меняет подход к электропитанию на уровне шкафа и управлению охлаждением.

В части электропитания внедряется система высоковольтного постоянного тока с централизованным питанием внутри шкафа и технологией «слепого» подключения, что сокращает промежуточные уровни преобразования энергии и значительно снижает потери.

В части охлаждения жидкостное охлаждение в архитектуре суперузлов переходит из статуса «опции» в «нативную стандартную комплектацию», с глубокой оптимизацией под требования отвода более 2 кВт тепла с одного GPU. Это позволяет снизить показатель PUE (эффективности использования энергии) с 1.4 в эпоху воздушного охлаждения до 1.05–1.15.

В сочетании с интеллектуальной диагностической системой, отслеживающей полный объём трафика, давления и температуры, эффективность теплопередачи повышается в тысячи раз.

В перспективе платформа совместных инноваций OISA продолжит интеграцию передовых технологий, таких как чиплеты, оптические соединения и пулы памяти, для исследования пределов вычислительных возможностей.

ИИ: Разработка стандартов для сверхплотных вычислительных узлов — критически важный шаг для создания эксафлопсных систем ИИ следующего поколения. Снижение PUE до значений, близких к 1.05, при одновременном размещении 128 высокомощных ускорителей в одном шкафу — это серьёзный технологический прорыв, который может изменить экономику крупных дата-центров.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии