NVIDIA объединяет дата-центры в единый суперкомпьютер с помощью Spectrum-XGS Ethernet
Сетевое взаимодействие в дата-центрах часто остаётся незамеченным широкой публикой, хотя именно оно отвечает за всю коммуникацию между узлами. NVIDIA понимает, что на горизонте появляются дата-центры с миллионами GPU, и для самых быстрых ИИ-моделей их необходимо объединять, даже если они находятся в разных географических локациях. Именно поэтому сегодня компания представила Spectrum-XGS Ethernet — расширение платформы Spectrum-X, разработанное для объединения множества географически распределённых дата-центров в единую гигамасштабную ИИ-суперфабрику. В NVIDIA заявляют, что Spectrum-XGS устраняет ограничения по мощности отдельных объектов за счёт внедрения дистанционно-ориентированных сетевых технологий, которые обеспечивают предсказуемую работу с низкой задержкой в масштабах кампусов, городов и континентов.
Технология в основном реализуется через программные и обновления микропрограмм для существующих коммутаторов Spectrum-X и адаптеров ConnectX SuperNIC, а не через выпуск нового чипа. Spectrum-XGS предлагает автоматически настраиваемое управление перегрузками, оптимизированное для длинных каналов связи, точное управление задержками для минимизации джиттера и комплексную сквозную телеметрию, которая позволяет операторам визуализировать и контролировать сетевой трафик между множеством площадок. По данным NVIDIA, эти изменения почти удваивают пропускную способность NCCL (библиотеки коллективных коммуникаций) для многопроцессорных многопоточных тренировочных задач и крупномасштабных экспериментов, повышая эффективность распределённых ИИ-нагрузок. NVIDIA позиционирует Spectrum-XGS как новое направление роста для ИИ-инфраструктуры: после масштабирования внутри серверов и внутри дата-центров, масштабирование «между объектами» объединяет площадки в единые вычислительные структуры.
Крупные операторы уже готовятся внедрять этот подход. CoreWeave будет среди первых, кто объединит несколько площадок с помощью Spectrum-XGS. Компания будет использовать распределённые объекты как единый суперкомпьютер, чтобы предоставить клиентам доступ к значительно большей совокупной мощности и упростить операции для гигамасштабных экспериментов и производственных тренировок. Spectrum-XGS доступен как часть платформы Spectrum-X и демонстрируется на конференции Hot Chips. Ожидается, что дополнительные детали будут представлены в ходе выступления на Hot Chips, но масштабные тренировки в пределах континента уже не являются фантастикой. Благодаря таким решениям, как Spectrum-XGS, ограничением остаются только небо (и энергосети).
Источник: NVIDIA
ИИ: В 2025 году тренд на создание распределённых суперкомпьютерных систем набирает обороты, и анонс NVIDIA выглядит крайне своевременным. Это может значительно ускорить развитие крупных языковых моделей и других сложных ИИ-систем.
0 комментариев