Alibaba Cloud отказывается от межсоединения Nvidia в пользу Ethernet
Ethernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия
Читайте также:Патентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформыДжим Келлер: Nvidia стоило использовать Ethernet в BlackwellНа этой материнской плате NAS больше портов Ethernet 2.5G, чем портов USB
Обычные облачные вычисления генерируют последовательные, но небольшие потоки данных со скоростью менее 10 Гбит/с. С другой стороны, обучение LLM генерирует периодические пакеты данных со скоростью до 400 Гбит/с. Согласно документу, «эта характеристика обучения LLM предрасполагает к хеш-поляризации, вызывающей такие проблемы, как неравномерное распределение трафика», — Equal Cost Multi-Path (ECMP), широко используемая схема балансировки нагрузки в традиционных центрах обработки данных.
Чтобы избежать этого, Чжай и его команда разработали высокопроизводительную сеть (HPN), в которой использовалась «двухуровневая двухплоскостная архитектура», которая уменьшает количество возможных событий ECMP, в то же время позволяя системе «точно выбирать сетевые пути, способные удерживая слоновьи потоки». HPN также использовала двойные коммутаторы, устанавливаемые на верхнюю часть стойки (ToR), что позволяло им дублировать друг друга. Эти переключатели являются наиболее распространенной единичной ошибкой при обучении LLM, требующей от графических процессоров синхронного выполнения итераций.
Восемь графических процессоров на хост, 1875 хостов на центр обработки данных
Alibaba Cloud разделила свои центры обработки данных на хосты, один из которых оснащен восемью графическими процессорами. Каждый графический процессор имеет свою сетевую карту (NIC) с двумя портами, при этом каждая система графического процессора-NIC называется «железной шиной». Хост также получает дополнительный сетевой адаптер для подключения к внутренней сети. Затем каждая шина подключается к двум разным коммутаторам ToR, гарантируя, что весь хост не будет затронут, даже если один коммутатор выйдет из строя.
NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия
Читайте также:Xbox может получить прямую интеграцию с Nvidia GeForce NowПоставщик облачных вычислений для ИИ от Nvidia увеличивает добычу криптовалютыThunderbird объединяет до 6144 ядер ЦП — новый суперкомпьютерный ускоритель ИИИсследователи используют Nvidia Omniverse для анализа чиповПроизводительность AMD MI300X по сравнению с Nvidia H100 в низкоуровневых тестах и тестах вывода
Alibaba Cloud также использует одночиповый коммутатор ToR Ethernet со скоростью 51,2 Тбит/с, поскольку многочиповые решения склонны к большей нестабильности и имеют в четыре раза большую частоту отказов, чем одночиповые коммутаторы. Однако эти переключатели сильно нагреваются, и никакой доступный радиатор на рынке не может предотвратить их выключение из-за перегрева. Итак, компания создала свое новое решение, создав радиатор с паровой камерой с большим количеством столбиков в центре, чтобы гораздо более эффективно передавать тепловую энергию.
Эннан Чжай и его команда представят свою работу на конференции SIGCOMM (Специальная группа по передаче данных) в Сиднее, Австралия, в августе этого года. Многие компании, в том числе AMD, Intel, Google и Microsoft, были бы заинтересованы в этом проекте, прежде всего потому, что они объединились для создания Ultra Accelerator Link — взаимосвязанного набора с открытым стандартом, способного конкурировать с NVlink. Это особенно верно, поскольку Alibaba Cloud использует HPN уже более восьми месяцев, а это означает, что эта технология уже опробована и протестирована.
Однако HPN по-прежнему имеет некоторые недостатки, самым большим из которых является сложная структура проводки. Поскольку каждый хост имеет девять сетевых карт и каждый сетевой адаптер подключен к двум разным коммутаторам ToR, существует много шансов перепутать, какой разъем к какому порту подключен. Тем не менее, эта технология, по-видимому, более доступна, чем NVlink, что позволяет любому учреждению, создающему центр обработки данных, сэкономить массу денег на затратах на установку (и, возможно, даже позволит ему избежать использования технологии Nvidia, особенно если это одна из компаний, попавших под санкции). США в продолжающейся войне чипов с Китаем).
Источник: Tomshardware.com
0 комментариев