Работающее подключение PCIe 6.0 продемонстрировано Astera Labs
Выставочный зал GTC 2024 был переполнен интересными техническими демонстрациями, поскольку партнеры Nvidia стремились извлечь выгоду из блеска и гламура того, что, вероятно, станет крупнейшим анонсом AI-GPU в этом году. Демонстрация Astera Labs рабочего подключения PCIe 6.0 с новыми ретаймерами Aries была одной из самых интересных — у компании была демонстрация работающего ретаймера PCIe 6.0, который снижает количество необходимой энергии более чем вдвое по сравнению с предыдущим поколением.
Демонстрация также дает нам убедительное представление о деталях компонентов, необходимых для сборки самых быстрых в мире кластеров AI-графических процессоров за счет увеличения радиуса действия соединения PCIe 6.0 между графическими процессорами и процессорами следующего поколения, такими как новые Blackwell B100, B200 от Nvidia, и кремний GB200.
Рабочие нагрузки искусственного интеллекта требуют высокого уровня пропускной способности между графическими процессорами для обработки данных на полной скорости, поэтому у Nvidia есть собственные решения NVLink и NVSwitch, обеспечивающие огромные объемы связи между графическими процессорами с пропускной способностью до 1,8 ТБ/с на GB200. системы, такие как GB200 NVL72. Но не все хотят полностью использовать Nvidia, и многие партнеры по-прежнему используют графические процессоры на базе PCIe.
Многие из сегодняшних мощных кластеров графических процессоров используют быстрые соединения PCIe 5.0 x16, которые обеспечивают двунаправленную полосу пропускания 128 ГБ/с между компонентами, чтобы поддерживать максимальную нагрузку графических процессоров и использовать их в полной мере. В настоящее время отрасль переходит на интерфейс PCIe 6.0, чтобы снова удвоить пропускную способность, достигнув пропускной способности до 256 ГБ/с при соединении x16, что требует еще более быстрых вспомогательных компонентов для расширения зоны действия интерфейса, но снижает производительность по битовым ошибкам. становятся еще более сложными с новым интерфейсом.
Именно здесь вступают в действие ретаймеры Aries Smart DSP от Astera Labs: небольшие чипы усиливают сигнал PCIe 6.2 в приведенной выше демонстрации. Мы видим демонстрационные системы Astera Labs, где платы на втором изображении используют активный канал PCIe 6.2 между хостом слева и генератором нагрузки справа. Ретаймер Aries PCIe 6.0 расположен на промежуточной плате посередине, поглощая и повышая трафик через два соединения PCIe x16 (по одному на каждой стороне чипа ретаймера).
Компания также продемонстрировала измерения мощности своего чипа в реальном времени, который считается самым маломощным ретаймером в мире. Под нагрузкой чип потреблял 11 Вт. Это значительное снижение на 15% по сравнению с 13 Вт, потребляемыми PCIe 5.0, при этом пропускная способность вдвое выше, чем у старого интерфейса. В совокупности это означает более чем двукратное сокращение количества энергии, необходимой для перемещения каждого бита. Частично снижение энергопотребления связано с переходом на новый узел TSMC для микросхемы ретаймера, но Astera не раскрывает, какой узел она использует в настоящее время.
Как вы можете видеть на других изображениях, у Astera также было множество устройств PCIe 5.0, подключенных к новым чипам ретаймера, и все они были размещены в одной системе. Эта демонстрация демонстрирует совместимость чипов ретаймера, но компания не смогла продемонстрировать эту систему с работающими графическими процессорами PCIe 6.0, твердотельными накопителями, сетевыми картами и т. д., поскольку они остаются под соглашением о неразглашении.
Переход от PCIe 4.0 к 5.0 удвоил скорость передачи данных за счет увеличения частоты шины, что затем наложило новые ограничения, такие как примерно вдвое уменьшенная длина трассировки. Это означало, что устройства нужно было размещать ближе друг к другу, чтобы обеспечить целостность сигнала, а также требовались более толстые материнские платы и более прочные материалы.
Ретаймеры принимают входящий сигнал PCIe, затем очищают и усиливают его, тем самым увеличивая дальность подключения к устройствам на больших расстояниях. Это необходимо при развертывании нескольких графических процессоров, где различные слоты графических процессоров могут быть достаточно удалены от процессора и наборов микросхем, обеспечивающих подключение PCIe. Фактически, нынешнее поколение ретаймеров PCIe 5.0 от Astera Labs уже является неотъемлемой частью систем Nvidia HGX (подробнее об этом ниже).
Новый интерфейс PCIe 6.0 снова удваивает пропускную способность, но это увеличение происходит за счет переключения на кодирование PAM-4 с NRZ вместо увеличения частоты, поэтому требования к дальности/расстоянию остаются примерно такими же. Однако кодирование PAM-4 более подвержено ошибкам, поэтому частота ошибок увеличилась, несмотря на добавление прямой коррекции ошибок (FEC). Таким образом, хотя полоса пропускания увеличилась вдвое, частота ошибок также увеличилась, что привело к снижению эффективной полосы пропускания.
Надежные таймеры помогают обеспечить целостность сигнала, и клиенты Astera Labs могут либо разрабатывать системы с более длинными трассами и принимать существующие коэффициенты ошибок, либо использовать короткие длины трасс и снижать частоту ошибок, тем самым увеличивая эффективную полосу пропускания. Это обеспечивает гибкость при проектировании, а программное обеспечение компании CONnectivity System Management and Optimization (COSMO) позволяет клиентам отслеживать ретаймеры в режиме реального времени во время развертывания, как показано на седьмом изображении в альбоме выше, предоставляя простые возможности для Link, Управление автопарком и RAS, оптимизация и диагностика/устранение неполадок.
Astera Labs уже добилась крупной победы, поскольку ретаймеры предыдущего поколения компании используются в графических системах Nvidia HGX. Здесь мы видим существующую систему HGX H100 с восемью огнедышащими графическими процессорами H100 в форм-факторе OAM, размещенную на универсальной материнской плате (UBB, конструкция по спецификации OCP).
Эта система сейчас питает большую часть мировой инфраструктуры искусственного интеллекта, настолько, что ее по-прежнему не хватает, и на втором изображении мы можем видеть восемь прямоугольных ретаймеров Astera Labs PCIe 5.0 слева от материнской платы. Еще восемь ретаймеров также расположены на правой стороне материнской платы, всего по 16 микросхем на плату, усиливая сигналы между графическим процессором и процессорами, расположенными на подключенной материнской плате (здесь не показано). Подключенная материнская плата (схемы на слайде ниже) также содержит девять ретаймеров, поэтому в каждой поставляемой системе Nvidia HGX достаточно чипов Astera.
Как вы можете себе представить, Astera уже поставила Nvidia значительное количество этих чипов. Хотя компания пока не говорит о каких-либо других победах в дизайне, мы полагаем, что системы следующего поколения HGX Blackwell от Nvidia также будут использовать кремний Astera.
Astera Labs представила на выставке ретаймеры Aries PCIe 6.0, и выше вы можете увидеть слайд-презентацию компании с множеством дополнительных подробностей о кремнии. Ретаймеры Aries также будут широко использоваться при развертывании CXL 3.1, нового типа интерфейса, который обеспечивает когерентное к кешу соединение между процессорами и ускорителями, такими как графические процессоры, интеллектуальными устройствами ввода-вывода, такими как DPU, а также различными вариантами DDR4/DDR5 и стойкие воспоминания. Соединение CXL позволяет ЦП работать с теми же областями памяти, что и подключенные устройства, тем самым повышая производительность и энергоэффективность, одновременно уменьшая сложность программного обеспечения и перемещение данных.
Ретаймеры Aries могут быть развернуты во многих различных сценариях использования, таких как сценарии «чип-чип», «коробка-коробка» и «стойка-стока». Компания утверждает, что ее чипы увеличивают дальность связи между устройствами более чем в 3 раза по сравнению с недорогими вариантами межсоединения. Добавление поддержки межсоединения CXL 3.1 в дополнение к стандартным соединениям PCIe 6.2 значительно увеличивает количество вариантов использования ретаймеров, поэтому в ближайшие годы мы, вероятно, увидим множество побед в дизайне Aries, не говоря уже о расширении его возможностей. использовать на платформах Nvidia Blackwell следующего поколения.
0 комментариев