Alibaba Cloud отказывается от межсоединения Nvidia в пользу Ethernet

Инженер и исследователь Alibaba Cloud Эннан Чжай поделился своей исследовательской работой через GitHub, раскрывая дизайн облачных центров провайдера, используемых для обучения LLM. В PDF-документе под названием «Alibaba HPN: сеть центров обработки данных для обучения моделям больших языков» описывается, как Alibaba использовала Ethernet

Thumbnail: EthernetEthernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия

Читайте также:Патентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформыДжим Келлер: Nvidia стоило использовать Ethernet в BlackwellНа этой материнской плате NAS больше портов Ethernet 2.5G, чем портов USB

, чтобы позволить своим 15 000 графическим процессорам взаимодействовать друг с другом.

Обычные облачные вычисления генерируют последовательные, но небольшие потоки данных со скоростью менее 10 Гбит/с. С другой стороны, обучение LLM генерирует периодические пакеты данных со скоростью до 400 Гбит/с. Согласно документу, «эта характеристика обучения LLM предрасполагает к хеш-поляризации, вызывающей такие проблемы, как неравномерное распределение трафика», — Equal Cost Multi-Path (ECMP), широко используемая схема балансировки нагрузки в традиционных центрах обработки данных.

Чтобы избежать этого, Чжай и его команда разработали высокопроизводительную сеть (HPN), в которой использовалась «двухуровневая двухплоскостная архитектура», которая уменьшает количество возможных событий ECMP, в то же время позволяя системе «точно выбирать сетевые пути, способные удерживая слоновьи потоки». HPN также использовала двойные коммутаторы, устанавливаемые на верхнюю часть стойки (ToR), что позволяло им дублировать друг друга. Эти переключатели являются наиболее распространенной единичной ошибкой при обучении LLM, требующей от графических процессоров синхронного выполнения итераций.

Восемь графических процессоров на хост, 1875 хостов на центр обработки данных

Alibaba Cloud разделила свои центры обработки данных на хосты, один из которых оснащен восемью графическими процессорами. Каждый графический процессор имеет свою сетевую карту (NIC) с двумя портами, при этом каждая система графического процессора-NIC называется «железной шиной». Хост также получает дополнительный сетевой адаптер для подключения к внутренней сети. Затем каждая шина подключается к двум разным коммутаторам ToR, гарантируя, что весь хост не будет затронут, даже если один коммутатор выйдет из строя.

Несмотря на отказ от NVlink для связи между хостами, Alibaba Cloud по-прежнему использует запатентованную технологию Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:Xbox может получить прямую интеграцию с Nvidia GeForce NowПоставщик облачных вычислений для ИИ от Nvidia увеличивает добычу криптовалютыThunderbird объединяет до 6144 ядер ЦП — новый суперкомпьютерный ускоритель ИИИсследователи используют Nvidia Omniverse для анализа чиповПроизводительность AMD MI300X по сравнению с Nvidia H100 в низкоуровневых тестах и тестах вывода

для внутрихостовой сети, поскольку связь между графическими процессорами внутри хоста требует большей пропускной способности. Однако, поскольку связь между рельсами намного медленнее, «выделенной пропускной способности сети RDMA 400 Гбит/с, что приводит к общей пропускной способности 3,2 Тбит/с» на хост, более чем достаточно для максимизации пропускной способности видеокарт PCIe Gen5x16.

Alibaba Cloud также использует одночиповый коммутатор ToR Ethernet со скоростью 51,2 Тбит/с, поскольку многочиповые решения склонны к большей нестабильности и имеют в четыре раза большую частоту отказов, чем одночиповые коммутаторы. Однако эти переключатели сильно нагреваются, и никакой доступный радиатор на рынке не может предотвратить их выключение из-за перегрева. Итак, компания создала свое новое решение, создав радиатор с паровой камерой с большим количеством столбиков в центре, чтобы гораздо более эффективно передавать тепловую энергию.

Эннан Чжай и его команда представят свою работу на конференции SIGCOMM (Специальная группа по передаче данных) в Сиднее, Австралия, в августе этого года. Многие компании, в том числе AMD, Intel, Google и Microsoft, были бы заинтересованы в этом проекте, прежде всего потому, что они объединились для создания Ultra Accelerator Link — взаимосвязанного набора с открытым стандартом, способного конкурировать с NVlink. Это особенно верно, поскольку Alibaba Cloud использует HPN уже более восьми месяцев, а это означает, что эта технология уже опробована и протестирована.

Однако HPN по-прежнему имеет некоторые недостатки, самым большим из которых является сложная структура проводки. Поскольку каждый хост имеет девять сетевых карт и каждый сетевой адаптер подключен к двум разным коммутаторам ToR, существует много шансов перепутать, какой разъем к какому порту подключен. Тем не менее, эта технология, по-видимому, более доступна, чем NVlink, что позволяет любому учреждению, создающему центр обработки данных, сэкономить массу денег на затратах на установку (и, возможно, даже позволит ему избежать использования технологии Nvidia, особенно если это одна из компаний, попавших под санкции). США в продолжающейся войне чипов с Китаем).

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий


Новые комментарии

требуется указать магазин и purchase date без этого не регистрирует
  • Анон
Россия на них клала❤❤❤❤, будет называться Ладушка 2.0 )))
  • Анон
ДА у меня тоже неработает уже все Вы не знаете каким способом вернуть все обратно СПАСИ
  • Анон
Хаетв Рустам Базарвич Хаетв
  • Анон
Очень довольна приложением. Пользуюсь сама и рекомендую другим.
16 способ - Ноутбук HP ProBook 4740s автоматически установлена камера HP HD Webcam [Fixed] при этом онлайн из браузера подключается камера к веб страницам, камера работает. С приложениями камера...
  • Анон
вообще не редкий, мне с озона такой же пришел
  • Анон
Чу горбатого лепите? в инструкции BypassTPPMCheck на картинке BypassTPMCheck вы хоть проверяйте! этж реестр ё маё!
  • Анон
это провокация на линукс синий экран да ни когда в жизни этого не будет
  • Анон
СуперАпп это СуперАпп - новый всемирный Тренд.
  • Анон

Смотреть все