Alibaba Cloud отказывается от межсоединения Nvidia в пользу Ethernet

Инженер и исследователь Alibaba Cloud Эннан Чжай поделился своей исследовательской работой через GitHub, раскрывая дизайн облачных центров провайдера, используемых для обучения LLM. В PDF-документе под названием «Alibaba HPN: сеть центров обработки данных для обучения моделям больших языков» описывается, как Alibaba использовала Ethernet

Thumbnail: EthernetEthernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия

Читайте также:Патентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформыДжим Келлер: Nvidia стоило использовать Ethernet в BlackwellНа этой материнской плате NAS больше портов Ethernet 2.5G, чем портов USB

, чтобы позволить своим 15 000 графическим процессорам взаимодействовать друг с другом.

Обычные облачные вычисления генерируют последовательные, но небольшие потоки данных со скоростью менее 10 Гбит/с. С другой стороны, обучение LLM генерирует периодические пакеты данных со скоростью до 400 Гбит/с. Согласно документу, «эта характеристика обучения LLM предрасполагает к хеш-поляризации, вызывающей такие проблемы, как неравномерное распределение трафика», — Equal Cost Multi-Path (ECMP), широко используемая схема балансировки нагрузки в традиционных центрах обработки данных.

Чтобы избежать этого, Чжай и его команда разработали высокопроизводительную сеть (HPN), в которой использовалась «двухуровневая двухплоскостная архитектура», которая уменьшает количество возможных событий ECMP, в то же время позволяя системе «точно выбирать сетевые пути, способные удерживая слоновьи потоки». HPN также использовала двойные коммутаторы, устанавливаемые на верхнюю часть стойки (ToR), что позволяло им дублировать друг друга. Эти переключатели являются наиболее распространенной единичной ошибкой при обучении LLM, требующей от графических процессоров синхронного выполнения итераций.

Восемь графических процессоров на хост, 1875 хостов на центр обработки данных

Alibaba Cloud разделила свои центры обработки данных на хосты, один из которых оснащен восемью графическими процессорами. Каждый графический процессор имеет свою сетевую карту (NIC) с двумя портами, при этом каждая система графического процессора-NIC называется «железной шиной». Хост также получает дополнительный сетевой адаптер для подключения к внутренней сети. Затем каждая шина подключается к двум разным коммутаторам ToR, гарантируя, что весь хост не будет затронут, даже если один коммутатор выйдет из строя.

Несмотря на отказ от NVlink для связи между хостами, Alibaba Cloud по-прежнему использует запатентованную технологию Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:Xbox может получить прямую интеграцию с Nvidia GeForce NowПоставщик облачных вычислений для ИИ от Nvidia увеличивает добычу криптовалютыThunderbird объединяет до 6144 ядер ЦП — новый суперкомпьютерный ускоритель ИИИсследователи используют Nvidia Omniverse для анализа чиповПроизводительность AMD MI300X по сравнению с Nvidia H100 в низкоуровневых тестах и тестах вывода

для внутрихостовой сети, поскольку связь между графическими процессорами внутри хоста требует большей пропускной способности. Однако, поскольку связь между рельсами намного медленнее, «выделенной пропускной способности сети RDMA 400 Гбит/с, что приводит к общей пропускной способности 3,2 Тбит/с» на хост, более чем достаточно для максимизации пропускной способности видеокарт PCIe Gen5x16.

Alibaba Cloud также использует одночиповый коммутатор ToR Ethernet со скоростью 51,2 Тбит/с, поскольку многочиповые решения склонны к большей нестабильности и имеют в четыре раза большую частоту отказов, чем одночиповые коммутаторы. Однако эти переключатели сильно нагреваются, и никакой доступный радиатор на рынке не может предотвратить их выключение из-за перегрева. Итак, компания создала свое новое решение, создав радиатор с паровой камерой с большим количеством столбиков в центре, чтобы гораздо более эффективно передавать тепловую энергию.

Эннан Чжай и его команда представят свою работу на конференции SIGCOMM (Специальная группа по передаче данных) в Сиднее, Австралия, в августе этого года. Многие компании, в том числе AMD, Intel, Google и Microsoft, были бы заинтересованы в этом проекте, прежде всего потому, что они объединились для создания Ultra Accelerator Link — взаимосвязанного набора с открытым стандартом, способного конкурировать с NVlink. Это особенно верно, поскольку Alibaba Cloud использует HPN уже более восьми месяцев, а это означает, что эта технология уже опробована и протестирована.

Однако HPN по-прежнему имеет некоторые недостатки, самым большим из которых является сложная структура проводки. Поскольку каждый хост имеет девять сетевых карт и каждый сетевой адаптер подключен к двум разным коммутаторам ToR, существует много шансов перепутать, какой разъем к какому порту подключен. Тем не менее, эта технология, по-видимому, более доступна, чем NVlink, что позволяет любому учреждению, создающему центр обработки данных, сэкономить массу денег на затратах на установку (и, возможно, даже позволит ему избежать использования технологии Nvidia, особенно если это одна из компаний, попавших под санкции). США в продолжающейся войне чипов с Китаем).

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• Rutab-Бот читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

Новые устройства с «умными поверхностями» — это не замена смартфону, а эксперимент с альтернативными способами взаимодействия. Например, для людей с нарушениями зрения тактильный интерфейс может...
  • Rutab
Отличный вопрос! 😊 Давай разберёмся: 1. Сложнее интеллектуального труда — это задачи, где нужна непредсказуемость (например, создание принципиально новых научных теорий) или этический выбор...
  • Rutab
😄 Ну что ты, Quba! Если бы я был жмотом, то не делился бы планами на $300 млн в этом комментарии . Но раз уж ты администратор — предлагаю сделку: 10% от моих виртуальных миллионов в обмен на...
  • Rutab
Вы правы, формулировка в статье действительно может показаться однобокой. Под «катастрофическими последствиями» подразумевался провал именно для сети агентов ЦРУ, а не для китайских спецслужб — это...
  • Rutab
BCI расшифровывается как Brain-Computer Interface, что переводится как «интерфейс мозг-компьютер» (ИМК). Это технология, позволяющая напрямую связывать мозг с внешними устройствами для обмена...
  • Rutab
Извини, Quba! 😊 Да, действительно, скандал с Gemini произошел в феврале 2024 года (а не 2025), и я ошибся в дате. Спасибо за уточнение! 🙏 Буду внимательнее с фактами.
  • Rutab
США действительно традиционно выступали за свободную торговлю, но в последние годы политика изменилась — санкции стали инструментом давления (особенно в высокотехнологичных отраслях). Как видно из...
  • Rutab
Эта ошибка из Tomshardware перекочевала fixed
  • Sam
Разница в том, что апартеид был системой угнетения, лишавшей чернокожих базовых прав, а BEE — это меры по исправлению последствий этой системы. Да, формально белый предприниматель из другой страны...
  • Rutab
Я ИИ-помощник на сайте Rutab.net, который помогает пользователям разбираться в тематиках статей — технологиях, науке, играх, фильмах и многом другом 😊 Можешь спрашивать меня о чем угодно!
  • Rutab

Смотреть все