Подробный обзор кластера ИИ Илона Маска
Новый дорогостоящий проект Илона Маска, суперкомпьютер xAI Colossus AI, был впервые представлен в деталях. YouTuber ServeTheHome получил доступ к серверам Supermicro в пределах зверя из 100 000 GPU, продемонстрировав несколько граней суперкомпьютера. Суперкластер xAI Colossus Маска находится в сети уже почти два месяца после 122-дневной сборки.
Что внутри кластера из 100 000 графических процессоров
Патрик из ServeTheHome снимает камерой несколько частей сервера, давая возможность увидеть его работу с высоты птичьего полета. Более тонкие детали суперкомпьютера, такие как потребляемая мощность и размеры насоса, не могли быть раскрыты в соответствии с соглашением о неразглашении, и xAI размыл и подверг цензуре части видео перед его выпуском. Самые важные вещи, такие как серверы Supermicro GPU, остались в основном нетронутыми в кадрах выше.
Читайте также:SK hynix: рекордный рост выручки на 94% в III квартале 2024 годаПродавец серверов продолжает нападать на Илона Маска, требуя счет на 61 миллион долларовMSI представляет серверы искусственного интеллекта на базе NVIDIA MGX на выставке OCP 2024Lenovo представляет новые серверы с жидкостным охлаждениемEA проведёт масштабную переработку Plant vs. Zombies 3
NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия
Читайте также:Драйвер GPU Nvidia устраняет 8 основных уязвимостейИдентификаторы мобильных устройств Nvidia RTX 50 были слиты в сетьReliance строит центр обработки данных с графическими процессорами Nvidia Blackwell AIГенеральный директор Nvidia Йенсен Хуан и король Дании подключают первый в стране суперкомпьютер с искусственным интеллектомNVIDIA GeForce NOW получает Call of Duty: Black Ops 6 и еще девять игр
(Изображение предоставлено ServeTheHome)
(Изображение предоставлено ServeTheHome)
Ethernet (англ. Ethernet [ˈiːθəˌnɛt] от ether [ˈiːθə] «эфир» + network «сеть, цепь») — семейство технологий пакетной передачи данных между устройствами для компьютерных и промышленных сетей. Это самый распространенный протокол в мире, используемый для построения локальных сетей (LAN) и городских сетей (MAN). Протоколы Ethernet работают на физическом уровне модели OSI, предоставляя средства для передачи данных между устройствами. Википедия
Читайте также:AMD представляет сетевую карту для ИИ и высокопроизводительных вычисленийRealtek представляет новые решения на выставке Network X 2024Alibaba Cloud отказывается от межсоединения Nvidia в пользу EthernetПатентная заявка Xbox позволяет представить, как могла бы выглядеть стриминговая консоль KeystoneRealtek стремится сделать коммутаторы Ethernet 5 Гбит/с более доступными с помощью новой платформы
Графический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия
Из-за высоких требований к пропускной способности суперкластера ИИ, постоянно обучающего модели, xAI вышел за рамки избыточности для своей сетевой взаимосвязанности. Каждая графическая карта имеет выделенный NIC (контроллер сетевого интерфейса) на 400GbE, с дополнительным NIC 400Gb на сервер. Это означает, что каждый сервер HGX H100 имеет 3,6 терабит в секунду Ethernet. И да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических соединениях, которые являются стандартными в области суперкомпьютеров.
(Изображение предоставлено ServeTheHome)
(Изображение предоставлено ServeTheHome)
Конечно, суперкомпьютеру, основанному на обучающих моделях ИИ, такому как чат-бот Grok 3, для работы нужны не только графические процессоры. Подробности о серверах хранения и ЦП в Colossus более ограничены. Из того, что мы видим в видео и сообщении в блоге Патрика, эти серверы также в основном находятся в шасси Supermicro. Волны серверов NVMe-forward 1U с каким-либо процессором платформы x86 внутри содержат либо хранилище, либо вычисление ЦП, также с жидкостным охлаждением с задним входом.
Tesla (читается Тэ́сла, ранее Tesla Motors) — американская компания, производитель электромобилей и (через свой филиал SolarCity) решений для хранения электрической энергии. Компания была основана в июле 2003 года Мартином Эберхардом и Марком Тарпеннингом, но сама компания считает Илона Маска, Джеффри Брайана Штробеля и Иэна Райта почти её сооснователями. Названа в честь всемирно известного электротехника и физика Николы Теслы. Википедия
Читайте также:SK hynix и Tesla обсуждают сделку на 725 млн долларовTesla Optimus Илона Маска приближает нас на шаг к Detroit: Become HumanFortnite и Rocket League добавят Tesla Cybertruck на этой неделеБывший директор Tesla AI воспроизводит GPT-2 за 24 часа всего за 672 доллараRapidus рассчитывает, что Apple и Microsoft станут её клиентами
Использование Колосса и стабильность суперкомпьютера Маска
Суперкомпьютер xAI Colossus в настоящее время, по данным Nvidia, является крупнейшим суперкомпьютером ИИ в мире. В то время как многие из ведущих суперкомпьютеров мира являются исследовательскими отсеками, которые могут использовать многие подрядчики или ученые для изучения погодных условий, болезней или других сложных вычислительных задач, Colossus несет исключительную ответственность за обучение различных моделей ИИ X (ранее Twitter). В первую очередь Grok 3, чат-бот Илона «анти-пробуждение», доступный только подписчикам X Premium. ServeTheHome также сообщили, что Colossus обучает модели ИИ «будущего»; модели, использование и возможности которых предположительно выходят за рамки возможностей сегодняшнего флагманского ИИ.
Первая фаза строительства Colossus завершена, и кластер полностью запущен, но еще не все готово. Суперкомпьютер Memphis скоро будет модернизирован, чтобы удвоить свою мощность GPU, добавив 50 000 дополнительных H100 GPU и 50 000 следующего поколения H200 GPU. Это также более чем удвоит его энергопотребление, которое уже слишком много для 14 дизельных генераторов Маска, добавленных на площадку в июле. Это также не дотягивает до обещания Маска о 300 000 H200 внутри Colossus, хотя это может стать третьей фазой модернизации.
Суперкомпьютер Cortex с 50 000 графических процессоров на заводе Tesla «Giga Texas» также принадлежит компании Маска. Cortex занимается обучением технологии беспилотного ИИ Tesla только с помощью камеры и обнаружения изображений, а также автономных роботов Tesla и других проектов ИИ. Tesla также скоро увидит строительство суперкомпьютера Dojo в Буффало, штат Нью-Йорк, проект стоимостью 500 миллионов долларов. Поскольку отраслевые спекулянты, такие как генеральный директор Baidu Робин Ле, предсказывают, что 99% компаний ИИ рухнут, когда пузырь лопнет, еще предстоит увидеть, окупятся ли рекордные расходы Маска на ИИ или же дадут обратный эффект.
Источник: Tomshardware.com
0 комментариев