Подробный обзор кластера ИИ Илона Маска

/ ТехнологииНовости / Технологии

Новый дорогостоящий проект Илона Маска, суперкомпьютер xAI Colossus AI, был впервые представлен в деталях. YouTuber ServeTheHome получил доступ к серверам Supermicro в пределах зверя из 100 000 GPU, продемонстрировав несколько граней суперкомпьютера. Суперкластер xAI Colossus Маска находится в сети уже почти два месяца после 122-дневной сборки.

Что внутри кластера из 100 000 графических процессоров

Патрик из ServeTheHome снимает камерой несколько частей сервера, давая возможность увидеть его работу с высоты птичьего полета. Более тонкие детали суперкомпьютера, такие как потребляемая мощность и размеры насоса, не могли быть раскрыты в соответствии с соглашением о неразглашении, и xAI размыл и подверг цензуре части видео перед его выпуском. Самые важные вещи, такие как серверы Supermicro GPU, остались в основном нетронутыми в кадрах выше.

Серверы GPU — это Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

Читайте также:Драйвер GPU Nvidia устраняет 8 основных уязвимостейИдентификаторы мобильных устройств Nvidia RTX 50 были слиты в сетьReliance строит центр обработки данных с графическими процессорами Nvidia Blackwell AIГенеральный директор Nvidia Йенсен Хуан и король Дании подключают первый в стране суперкомпьютер с искусственным интеллектомNVIDIA GeForce NOW получает Call of Duty: Black Ops 6 и еще девять игр

HGX H100, серверное решение, содержащее восемь GPU H100 каждый. Платформа HGX H100 упакована в универсальную систему жидкостного охлаждения GPU 4U от Supermicro, обеспечивающую простую горячую замену жидкостного охлаждения для каждого GPU. Эти серверы загружаются в стойки, вмещающие восемь серверов каждая, что составляет 64 GPU на стойку. Коллекторы 1U зажаты между каждым HGX H100, обеспечивая жидкостное охлаждение, необходимое серверам. Внизу каждой стойки находится еще один блок Supermicro 4U, на этот раз с резервной насосной системой и системой мониторинга стойки.

(Изображение предоставлено ServeTheHome)

(Изображение предоставлено ServeTheHome)

Эти стойки объединены в группы по восемь, что составляет 512 графических процессоров на массив. Каждый сервер имеет четыре резервных источника питания, а задняя часть стоек графических процессоров показывает 3-фазные источники питания, коммутаторы Ethernet

Thumbnail: EthernetEthernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия

Читайте также:AMD представляет сетевую карту для ИИ и высокопроизводительных вычисленийRealtek представляет новые решения на выставке Network X 2024Alibaba Cloud отказывается от межсоединения Nvidia в пользу EthernetПатентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформы

и коллектор размером со стойку, обеспечивающий все жидкостное охлаждение. В кластере Colossus находится более 1500 стоек графических процессоров, или около 200 массивов стоек. По словам генерального директора Nvidia Дженсена Хуанга, графические процессоры

Thumbnail: Графический процессорГрафический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия

для этих 200 массивов были полностью установлены всего за три недели.

Из-за высоких требований к пропускной способности суперкластера ИИ, постоянно обучающего модели, xAI вышел за рамки избыточности для своей сетевой взаимосвязанности. Каждая графическая карта имеет выделенный NIC (контроллер сетевого интерфейса) на 400GbE, с дополнительным NIC 400Gb на сервер. Это означает, что каждый сервер HGX H100 имеет 3,6 терабит в секунду Ethernet. И да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических соединениях, которые являются стандартными в области суперкомпьютеров.

(Изображение предоставлено ServeTheHome)

(Изображение предоставлено ServeTheHome)

Конечно, суперкомпьютеру, основанному на обучающих моделях ИИ, такому как чат-бот Grok 3, для работы нужны не только графические процессоры. Подробности о серверах хранения и ЦП в Colossus более ограничены. Из того, что мы видим в видео и сообщении в блоге Патрика, эти серверы также в основном находятся в шасси Supermicro. Волны серверов NVMe-forward 1U с каким-либо процессором платформы x86 внутри содержат либо хранилище, либо вычисление ЦП, также с жидкостным охлаждением с задним входом.

Снаружи видны несколько плотно упакованных банков аккумуляторов Tesla

Thumbnail: TeslaTesla (читается Тэ́сла, ранее Tesla Motors) — американская компания, производитель электромобилей и (через свой филиал SolarCity) решений для хранения электрической энергии. Компания была основана в июле 2003 года Мартином Эберхардом и Марком Тарпеннингом, но сама компания считает Илона Маска, Джеффри Брайана Штробеля и Иэна Райта почти её сооснователями. Названа в честь всемирно известного электротехника и физика Николы Теслы. Википедия

Читайте также:SK hynix и Tesla обсуждают сделку на 725 млн долларовTesla Optimus Илона Маска приближает нас на шаг к Detroit: Become HumanFortnite и Rocket League добавят Tesla Cybertruck на этой неделеБывший директор Tesla AI воспроизводит GPT-2 за 24 часа всего за 672 доллараRapidus рассчитывает, что Apple и Microsoft станут её клиентами

Megapack. Старт-стопная природа массива с миллисекундной задержкой между банками оказалась слишком большой для электросети или дизельных генераторов Маска, поэтому некоторое количество Tesla Megapack (емкостью до 3,9 МВт·ч каждый) используется в качестве энергетического буфера между электросетью и суперкомпьютером.

Использование Колосса и стабильность суперкомпьютера Маска

Суперкомпьютер xAI Colossus в настоящее время, по данным Nvidia, является крупнейшим суперкомпьютером ИИ в мире. В то время как многие из ведущих суперкомпьютеров мира являются исследовательскими отсеками, которые могут использовать многие подрядчики или ученые для изучения погодных условий, болезней или других сложных вычислительных задач, Colossus несет исключительную ответственность за обучение различных моделей ИИ X (ранее Twitter). В первую очередь Grok 3, чат-бот Илона «анти-пробуждение», доступный только подписчикам X Premium. ServeTheHome также сообщили, что Colossus обучает модели ИИ «будущего»; модели, использование и возможности которых предположительно выходят за рамки возможностей сегодняшнего флагманского ИИ.

Первая фаза строительства Colossus завершена, и кластер полностью запущен, но еще не все готово. Суперкомпьютер Memphis скоро будет модернизирован, чтобы удвоить свою мощность GPU, добавив 50 000 дополнительных H100 GPU и 50 000 следующего поколения H200 GPU. Это также более чем удвоит его энергопотребление, которое уже слишком много для 14 дизельных генераторов Маска, добавленных на площадку в июле. Это также не дотягивает до обещания Маска о 300 000 H200 внутри Colossus, хотя это может стать третьей фазой модернизации.

Суперкомпьютер Cortex с 50 000 графических процессоров на заводе Tesla «Giga Texas» также принадлежит компании Маска. Cortex занимается обучением технологии беспилотного ИИ Tesla только с помощью камеры и обнаружения изображений, а также автономных роботов Tesla и других проектов ИИ. Tesla также скоро увидит строительство суперкомпьютера Dojo в Буффало, штат Нью-Йорк, проект стоимостью 500 миллионов долларов. Поскольку отраслевые спекулянты, такие как генеральный директор Baidu Робин Ле, предсказывают, что 99% компаний ИИ рухнут, когда пузырь лопнет, еще предстоит увидеть, окупятся ли рекордные расходы Маска на ИИ или же дадут обратный эффект.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий


Новые комментарии

Поддерживаю. А еще если брать в разрезе Илон Маск и безопасность данных, то вообще смешно. Особенно для жителей РФ)О конфиденциальности можно забыть
  • Анон
1c пох на ваши операции, количество ядер и прочее. Умудрились написать ядро четко привязанное к Мгц. Единственный в мире продукт для 1го ядра.
  • Анон
Указан неверный диаметр вентиляторов, не 80 мм, а 100 мм. И чип не 103, а 102.
  • Анон
С прошлым обновлением как раз и появилась эта ошибка. А новое как и написано не дают скачать.
  • Анон
При включении 3D Turbo Mode у вас максимум будет доступно 8 ядер и 8 потоков всего. т.е. если у вас 16 ядерный на 32 потока то будет всего 8 ядер и 8 потоков! Странная оптимизация!
  • Анон
После скачивания вышел синий экран СУПЕР!
  • Анон
требуется указать магазин и purchase date без этого не регистрирует
  • Анон
Россия на них клала❤❤❤❤, будет называться Ладушка 2.0 )))
  • Анон
ДА у меня тоже неработает уже все Вы не знаете каким способом вернуть все обратно СПАСИ
  • Анон

Смотреть все