Alibaba Cloud отказывается от межсоединения Nvidia в пользу Ethernet

Инженер и исследователь Alibaba Cloud Эннан Чжай поделился своей исследовательской работой через GitHub, раскрывая дизайн облачных центров провайдера, используемых для обучения LLM. В PDF-документе под названием «Alibaba HPN: сеть центров обработки данных для обучения моделям больших языков» описывается, как Alibaba использовала Ethernet

Thumbnail: EthernetEthernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия

Читайте также:Патентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформыДжим Келлер: Nvidia стоило использовать Ethernet в BlackwellНа этой материнской плате NAS больше портов Ethernet 2.5G, чем портов USB

, чтобы позволить своим 15 000 графическим процессорам взаимодействовать друг с другом.

Обычные облачные вычисления генерируют последовательные, но небольшие потоки данных со скоростью менее 10 Гбит/с. С другой стороны, обучение LLM генерирует периодические пакеты данных со скоростью до 400 Гбит/с. Согласно документу, «эта характеристика обучения LLM предрасполагает к хеш-поляризации, вызывающей такие проблемы, как неравномерное распределение трафика», — Equal Cost Multi-Path (ECMP), широко используемая схема балансировки нагрузки в традиционных центрах обработки данных.

Чтобы избежать этого, Чжай и его команда разработали высокопроизводительную сеть (HPN), в которой использовалась «двухуровневая двухплоскостная архитектура», которая уменьшает количество возможных событий ECMP, в то же время позволяя системе «точно выбирать сетевые пути, способные удерживая слоновьи потоки». HPN также использовала двойные коммутаторы, устанавливаемые на верхнюю часть стойки (ToR), что позволяло им дублировать друг друга. Эти переключатели являются наиболее распространенной единичной ошибкой при обучении LLM, требующей от графических процессоров синхронного выполнения итераций.

Восемь графических процессоров на хост, 1875 хостов на центр обработки данных

Alibaba Cloud разделила свои центры обработки данных на хосты, один из которых оснащен восемью графическими процессорами. Каждый графический процессор имеет свою сетевую карту (NIC) с двумя портами, при этом каждая система графического процессора-NIC называется «железной шиной». Хост также получает дополнительный сетевой адаптер для подключения к внутренней сети. Затем каждая шина подключается к двум разным коммутаторам ToR, гарантируя, что весь хост не будет затронут, даже если один коммутатор выйдет из строя.

Несмотря на отказ от NVlink для связи между хостами, Alibaba Cloud по-прежнему использует запатентованную технологию Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:Xbox может получить прямую интеграцию с Nvidia GeForce NowПоставщик облачных вычислений для ИИ от Nvidia увеличивает добычу криптовалютыThunderbird объединяет до 6144 ядер ЦП — новый суперкомпьютерный ускоритель ИИИсследователи используют Nvidia Omniverse для анализа чиповПроизводительность AMD MI300X по сравнению с Nvidia H100 в низкоуровневых тестах и тестах вывода

для внутрихостовой сети, поскольку связь между графическими процессорами внутри хоста требует большей пропускной способности. Однако, поскольку связь между рельсами намного медленнее, «выделенной пропускной способности сети RDMA 400 Гбит/с, что приводит к общей пропускной способности 3,2 Тбит/с» на хост, более чем достаточно для максимизации пропускной способности видеокарт PCIe Gen5x16.

Alibaba Cloud также использует одночиповый коммутатор ToR Ethernet со скоростью 51,2 Тбит/с, поскольку многочиповые решения склонны к большей нестабильности и имеют в четыре раза большую частоту отказов, чем одночиповые коммутаторы. Однако эти переключатели сильно нагреваются, и никакой доступный радиатор на рынке не может предотвратить их выключение из-за перегрева. Итак, компания создала свое новое решение, создав радиатор с паровой камерой с большим количеством столбиков в центре, чтобы гораздо более эффективно передавать тепловую энергию.

Эннан Чжай и его команда представят свою работу на конференции SIGCOMM (Специальная группа по передаче данных) в Сиднее, Австралия, в августе этого года. Многие компании, в том числе AMD, Intel, Google и Microsoft, были бы заинтересованы в этом проекте, прежде всего потому, что они объединились для создания Ultra Accelerator Link — взаимосвязанного набора с открытым стандартом, способного конкурировать с NVlink. Это особенно верно, поскольку Alibaba Cloud использует HPN уже более восьми месяцев, а это означает, что эта технология уже опробована и протестирована.

Однако HPN по-прежнему имеет некоторые недостатки, самым большим из которых является сложная структура проводки. Поскольку каждый хост имеет девять сетевых карт и каждый сетевой адаптер подключен к двум разным коммутаторам ToR, существует много шансов перепутать, какой разъем к какому порту подключен. Тем не менее, эта технология, по-видимому, более доступна, чем NVlink, что позволяет любому учреждению, создающему центр обработки данных, сэкономить массу денег на затратах на установку (и, возможно, даже позволит ему избежать использования технологии Nvidia, особенно если это одна из компаний, попавших под санкции). США в продолжающейся войне чипов с Китаем).

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• Rutab-Бот читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ за 24 часа 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

а разве рыцари Круглого стола и викинги не были чернокожими???
  • Анон
игра с формированием ложного самомнения через подхалимаж. ---По образу и подобию .....
  • Анон
Если игра упирается в производительность видеокарты, то хоть заускоряй процессор, а FPS больше не будет. Я у себя на синтетических тестах получил лишь меньшую задержку памяти. В играх практически...
  • Анон
Всё в порядке с физикой: источник может быть меньше четверти длины волны. Даже одиночный ион в ионной ловушке может излучать видимый свет (а размер меньше 0.2нм).
  • Анон
Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
  • Анон
Странно почему не 50 долларов.
  • Анон
Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
  • Анон
Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
  • Анон
И теперь нельзя отключить авто обновление!!! Это жесть
  • Анон
Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
  • Анон

Смотреть все