Результаты обучения NVIDIA MLPerf

12 июня 2024, 22:35 / Технологии → Новости / Технологии

Полнофункциональная ускоренная вычислительная платформа NVIDIA в очередной раз продемонстрировала исключительную производительность в последних тестах MLPerf Training v4.0. NVIDIA более чем утроила производительность в тесте модели большого языка (LLM), основанном на GPT-3 175B, по сравнению с рекордным результатом NVIDIA, представленным в прошлом году. Используя суперкомпьютер искусственного интеллекта с 11 616 графическими процессорами NVIDIA H100 Tensor Core, подключенными к сети NVIDIA Quantum-2 InfiniBand, NVIDIA достигла этого замечательного результата за счет большего масштаба — более чем в три раза больше, чем 3584 графических процессора H100, представленных год назад — и обширного комплексного проектирования.

Благодаря масштабируемости платформы NVIDIA AI, Eos теперь может обучать крупные модели искусственного интеллекта, такие как GPT-3 175B, еще быстрее, и такая высокая производительность искусственного интеллекта открывает значительные возможности для бизнеса. Например, в недавнем отчете NVIDIA о финансовых результатах мы описали, как поставщики услуг LLM могут превратить один вложенный доллар в семь долларов всего за четыре года, используя модель Llama 3 70B на серверах NVIDIA HGX H200. В этом доходе предполагается, что поставщик услуг LLM обслуживает Llama 3 70B по цене 0,60 доллара США за миллион токенов, а пропускная способность сервера HGX H200 составляет 24 000 токенов в секунду.

Графический процессор NVIDIA H200 ускоряет генерацию искусственного интеллекта и HPC
Тензорный графический процессор NVIDIA H200 основан на мощной архитектуре Hopper и имеет 141 ГБ памяти HBM3 и более чем на 40 % большую пропускную способность памяти по сравнению с графическим процессором H100. Раздвигая границы возможного в обучении искусственного интеллекта, графический процессор NVIDIA H200 Tensor Core увеличил производительность H100 до 47 % в дебютной версии MLPerf Training.

Программное обеспечение NVIDIA обеспечивает непревзойденный прирост производительности
Кроме того, наши заявки с использованием конфигурации графического процессора 512 H100 теперь выполняются на 27 % быстрее по сравнению с тем, что было всего год назад, благодаря многочисленным оптимизациям программного стека NVIDIA. Это улучшение показывает, как постоянные улучшения программного обеспечения могут значительно повысить производительность даже при использовании того же оборудования.

Эта работа также обеспечила почти идеальное масштабирование. Поскольку количество графических процессоров увеличилось в 3,2 раза – с 3584 графических процессоров H100 в прошлом году до 11 616 графических процессоров H100 в этом представлении – выросла и производительность.

Узнайте больше об этих оптимизациях в техническом блоге NVIDIA.

Превосходство в тонкой настройке LLM
Поскольку предприятия стремятся настраивать предварительно обученные большие языковые модели, тонкая настройка LLM становится ключевой рабочей нагрузкой в отрасли. В этом раунде MLPerf представил новый тест тонкой настройки LLM, основанный на популярной методике адаптации низкого ранга (LoRA), примененной к Meta Llama 2 70B.

Платформа NVIDIA преуспела в этой задаче, масштабируясь с восьми до 1024 графических процессоров, а самая масштабная заявка NVIDIA завершила тест за рекордные 1,5 минуты.

Ускорение стабильной диффузии и обучение GNN
NVIDIA также увеличила производительность обучения Stable Diffusion v2 почти на 80% в тех же масштабах системы, что были представлены в прошлом раунде. Эти достижения отражают многочисленные улучшения программного стека NVIDIA, демонстрируя, как улучшения программного и аппаратного обеспечения идут рука об руку, обеспечивая высочайшую производительность.

В новом тесте нейронной сети на графе (GNN), основанном на R-GAT, платформа NVIDIA с графическими процессорами H100 преуспела как в малых, так и в больших масштабах. H200 обеспечил прирост на 47% при обучении GNN с одним узлом по сравнению с H100. Это демонстрирует высокую производительность и высокую эффективность графических процессоров NVIDIA, что делает их идеальными для широкого спектра приложений искусственного интеллекта.

Широкая поддержка экосистемы
Отражая широту экосистемы искусственного интеллекта NVIDIA, результаты представили 10 партнеров NVIDIA, в том числе ASUS, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo, Oracle, Quanta Cloud Technology, Supermicro и Sustainable Metal Cloud. Такое широкое участие и их собственные впечатляющие результаты тестов подчеркивают широкое распространение и доверие к платформе искусственного интеллекта NVIDIA во всей отрасли.

Постоянная работа MLCommons по внедрению лучших практик сравнительного анализа в вычисления с использованием искусственного интеллекта имеет жизненно важное значение. Обеспечивая рецензируемое сравнение

Сравне́ние — процесс количественного или качественного сопоставления разных свойств (сходств, отличий, преимуществ и недостатков) двух (и более) объектов, выяснение, какой из двух (и более) объектов лучше в целом («интегральное сопоставление»), утверждение, что данные объекты равны или подобны, приравнивание, уподобление. Возможные значения: Сравнение в ряде социальных наук и в философии — познавательная операция, лежащая в основе суждений о сходстве или различии объектов. Сравнение по модулю натурального числа — понятие, на котором основана модулярная арифметика, применяющаяся во многих областях математики. Сравнение в программировании — общее название ряда операций над па́рами значений одного типа, реализующих математические отношения равенства и порядка. Википедия

платформ искусственного интеллекта и высокопроизводительных вычислений и идя в ногу с быстрыми изменениями, которые характеризуют вычисления искусственного интеллекта, MLCommons предоставляет компаниям во всем мире важные данные, которые могут помочь принять важные решения о покупке.

А с платформой NVIDIA Blackwell скоро появится новый уровень производительности ИИ в генеративных моделях ИИ с триллионом параметров как для обучения, так и для вывода.

Источник: Techpowerup.com