NVIDIA описывает преимущества платформы вывода по стоимости

В этом году компании во всех отраслях внедряют услуги ИИ

Thumbnail: Искусственный интеллектИску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

Читайте также:Solidigm продлевает соглашение с Broadcom о выпуске SSD-контроллеров высокой емкости для ИИТретья китайская компания начинает производство памяти HBM для процессоров ИИ: отчетСША готовят «Звездные врата»: 500 миллиардов долларов на развитие инфраструктуры ИИИИ увеличит потребность в хранении данныхApple в консорциуме UALink для создания стандартов ИИ-ускорителей

. Для Microsoft, Oracle, Perplexity, Snap и сотен других ведущих компаний использование платформы вывода ИИ NVIDIA — полного стека, включающего кремний, системы и программное обеспечение мирового класса — является ключом к обеспечению высокопроизводительного вывода с низкой задержкой и обеспечению отличного пользовательского опыта при снижении затрат. Достижения NVIDIA в оптимизации программного обеспечения для вывода и платформа NVIDIA Hopper помогают отраслям обслуживать новейшие модели генеративного ИИ, обеспечивая отличный пользовательский опыт при оптимизации общей стоимости владения. Платформа Hopper также помогает обеспечить до 15 раз большую энергоэффективность для рабочих нагрузок вывода по сравнению с предыдущими поколениями.

Вывод ИИ, как известно, сложен, поскольку требует множества шагов для достижения правильного баланса между пропускной способностью и пользовательским опытом. Но основная цель проста: генерировать больше токенов по более низкой цене. Токены представляют слова в системе большой языковой модели ( LLM) — и поскольку службы вывода ИИ обычно взимают плату за каждый миллион сгенерированных токенов, эта цель обеспечивает наиболее наглядную отдачу от инвестиций в ИИ и энергии, затраченной на выполнение задачи. Оптимизация программного обеспечения полного стека дает ключ к улучшению производительности вывода ИИ и достижению этой цели.

Экономически эффективная пропускная способность для пользователей
Предприятия часто сталкиваются с проблемой баланса производительности и стоимости рабочих нагрузок вывода. В то время как некоторые клиенты или варианты использования могут работать с готовой или размещенной моделью, другим может потребоваться настройка. Технологии NVIDIA упрощают развертывание модели, оптимизируя стоимость и производительность для рабочих нагрузок вывода ИИ. Кроме того, клиенты могут ощутить гибкость и настраиваемость с моделями, которые они выбирают для развертывания.

Микросервисы NVIDIA NIM, сервер вывода NVIDIA Triton и библиотека NVIDIA TensorRT — вот некоторые из решений вывода, которые NVIDIA предлагает для удовлетворения потребностей пользователей:

  • Микросервисы вывода NVIDIA NIM предварительно упакованы и оптимизированы по производительности для быстрого развертывания базовых моделей ИИ в любой инфраструктуре — облаке, центрах обработки данных, периферии или рабочих станциях.
  • NVIDIA Triton Inference Server, один из самых популярных проектов компании с открытым исходным кодом, позволяет пользователям упаковывать и обслуживать любую модель независимо от фреймворка ИИ, на котором она была обучена.
  • NVIDIA TensorRT — это высокопроизводительная библиотека логического вывода для глубокого обучения, которая включает в себя оптимизацию среды выполнения и модели для обеспечения малой задержки и высокой пропускной способности логического вывода для производственных приложений.

Программная платформа NVIDIA AI Enterprise, доступная на всех основных рынках облачных вычислений, включает в себя все эти решения и обеспечивает поддержку, стабильность, управляемость и безопасность корпоративного уровня.

С независимой от фреймворка платформой вывода NVIDIA AI компании экономят на производительности, разработке, инфраструктуре и затратах на настройку. Использование технологий NVIDIA также может повысить доход бизнеса, помогая компаниям избегать простоев и мошеннических транзакций, повышать коэффициенты конверсии покупок в электронной коммерции и генерировать новые источники дохода на основе ИИ.

Облачный вывод LLM
Для упрощения развертывания LLM NVIDIA тесно сотрудничает со всеми основными поставщиками облачных услуг, чтобы гарантировать, что платформа вывода NVIDIA может быть легко развернута в облаке с минимальным кодом или без него. NVIDIA NIM интегрирована с облачными сервисами, такими как:

  • Amazon SageMaker AI, Amazon Bedrock Marketplace, Amazon Elastic Kubernetes Service
  • Vertex AI от Google Cloud, Google Kubernetes Engine
  • Microsoft Azure AI Foundry скоро появится, служба Azure Kubernetes
  • Инструменты науки о данных Oracle Cloud Infrastructure, Oracle Cloud Infrastructure Kubernetes Engine

Кроме того, для индивидуального развертывания вывода сервер вывода NVIDIA Triton Inference Server глубоко интегрирован со всеми основными поставщиками облачных услуг.

Например, при использовании платформы OCI Data Science развертывание NVIDIA Triton так же просто, как включение переключателя в аргументах командной строки во время развертывания модели, что мгновенно запускает конечную точку вывода NVIDIA Triton.

Аналогично, с помощью Azure Machine Learning пользователи могут развернуть NVIDIA Triton либо с помощью развертывания без кода через Azure Machine Learning Studio, либо с помощью развертывания полного кода с помощью Azure Machine Learning CLI. AWS обеспечивает развертывание NVIDIA NIM в один клик из SageMaker Marketplace, а Google Cloud

Google Cloud Platform (рус. «Облачная платформа Google», сокр. GCP) — предоставляемый компанией Google набор облачных служб, которые выполняются на той же самой инфраструктуре, которую Google использует для своих продуктов, предназначенных для конечных потребителей, таких как Google Search и YouTube. Кроме инструментов для управления, также предоставляется ряд модульных облачных служб, таких как облачные вычисления, хранение данных, анализ данных и машинное обучение. Википедия

предоставляет возможность развертывания в один клик на Google Kubernetes Engine (GKE). Google Cloud предоставляет возможность развертывания в один клик на Google Kubernetes Engine, в то время как AWS предлагает NVIDIA Triton на своих контейнерах AWS Deep Learning.

Платформа вывода ИИ NVIDIA также использует популярные методы коммуникации для предоставления прогнозов ИИ, автоматически подстраиваясь под растущие и меняющиеся потребности пользователей в облачной инфраструктуре.

От ускорения LLM до улучшения творческих рабочих процессов и трансформации управления соглашениями, платформа вывода ИИ от NVIDIA оказывает реальное влияние на все отрасли. Узнайте, как сотрудничество и инновации позволяют организациям ниже достигать новых уровней эффективности и масштабируемости.

Полную версию статьи можно найти здесь.

Узнайте больше о том, как NVIDIA обеспечивает революционные результаты производительности вывода, и будьте в курсе последних обновлений производительности вывода ИИ.

Источник: NVIDIA Blog

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий


Новые комментарии

После всех роликов я одно понял у этой игры которую выпустят 20 мая у неё большое будущее
  • Анон
Когда они в продаже появятся? Уже как бы конец февраля, а нигде нет..
  • Анон
Поддерживаю. А еще если брать в разрезе Илон Маск и безопасность данных, то вообще смешно. Особенно для жителей РФ)О конфиденциальности можно забыть
  • Анон
1c пох на ваши операции, количество ядер и прочее. Умудрились написать ядро четко привязанное к Мгц. Единственный в мире продукт для 1го ядра.
  • Анон
Указан неверный диаметр вентиляторов, не 80 мм, а 100 мм. И чип не 103, а 102.
  • Анон
С прошлым обновлением как раз и появилась эта ошибка. А новое как и написано не дают скачать.
  • Анон
При включении 3D Turbo Mode у вас максимум будет доступно 8 ядер и 8 потоков всего. т.е. если у вас 16 ядерный на 32 потока то будет всего 8 ядер и 8 потоков! Странная оптимизация!
  • Анон
После скачивания вышел синий экран СУПЕР!
  • Анон
требуется указать магазин и purchase date без этого не регистрирует
  • Анон

Смотреть все