Представлен новый стандарт OISA для суперузлов с 128 GPU в одном шкафу
Традиционные серверы обычно оснащаются 2-8 ускорителями, но масштабы кластеров для ИИ-вычислений стремительно растут, достигая сотен, тысяч, десятков тысяч и даже сотен тысяч карт. В связи с этим архитектура суперузлов с мощными возможностями межсоединений становится ключевым направлением.
На платформе совместных инноваций OISA компании Moore Threads (摩尔线程), Китайская академия телекоммуникационных исследований (China Mobile Research Institute) и лаборатория Чжэцзян (之江实验室) официально представили «Технические спецификации эталонного проекта высокоплотного суперузла OISA».
Эта спецификация предлагает комплексное решение для преодоления узких мест в межсоединениях, проблем с энергоснабжением и охлаждением в современных центрах ИИ-вычислений, поддерживая создание высокопроизводительных и независимо контролируемых кластеров.
Проект OISA для высокоплотных суперузлов смело внедряет решение с кабелями большого размера и высокой плотности. На основе распространённых межсоединений на 32-64 карты он реализует полную взаимосвязь 128 карт в стандартном шкафу шириной в одну стойку, с поддержкой расширения до 256 карт путём объединения шкафов.
На уровне базового протокола спецификация использует нативную поддержку семантики памяти на основе OISA 2.0, что позволяет осуществлять беспрепятственный доступ к данным между узлами. В сочетании с инновационной технологией реконструкции пакетов это выводит пропускную способность между картами на уровень терабайт в секунду, сокращая задержки до сотен наносекунд.
Сегодня энергопотребление одной GPU-карты для вычислений уже достигло 700 Вт и даже превышает 1000 Вт, а мощность, потребляемая целым шкафом, приближается к 350 кВт и более.
Эталонный проект OISA кардинально меняет подход к электропитанию на уровне шкафа и управлению охлаждением.
В части электропитания внедряется система высоковольтного постоянного тока с централизованным питанием внутри шкафа и технологией «слепого» подключения, что сокращает промежуточные уровни преобразования энергии и значительно снижает потери.
В части охлаждения жидкостное охлаждение в архитектуре суперузлов переходит из статуса «опции» в «нативную стандартную комплектацию», с глубокой оптимизацией под требования отвода более 2 кВт тепла с одного GPU. Это позволяет снизить показатель PUE (эффективности использования энергии) с 1.4 в эпоху воздушного охлаждения до 1.05–1.15.
В сочетании с интеллектуальной диагностической системой, отслеживающей полный объём трафика, давления и температуры, эффективность теплопередачи повышается в тысячи раз.
В перспективе платформа совместных инноваций OISA продолжит интеграцию передовых технологий, таких как чиплеты, оптические соединения и пулы памяти, для исследования пределов вычислительных возможностей.
ИИ: Разработка стандартов для сверхплотных вычислительных узлов — критически важный шаг для создания эксафлопсных систем ИИ следующего поколения. Снижение PUE до значений, близких к 1.05, при одновременном размещении 128 высокомощных ускорителей в одном шкафу — это серьёзный технологический прорыв, который может изменить экономику крупных дата-центров.






0 комментариев