Вот как NVIDIA увеличивает скорость GenAI с помощью TensorRT, работающего локально

29 марта 2024, 18:17 / Технологии → Новости / Технологии

За последние пару лет популярность искусственного интеллекта резко возросла, причем большую часть этого всплеска обеспечили чат-боты и генераторы изображений. Эти инструменты тщательно обучены на обширных наборах данных, называемых моделями большого языка (LLM), из которых они извлекают результаты, которые мы видим. Однако быстрое получение таких результатов зависит от серьезной вычислительной мощности. Более 100 миллионов пользователей уже используют мощное оборудование NVIDIA для запуска моделей искусственного интеллекта. Это связано с тем, что NVIDIA предлагает оборудование, которое превосходно справляется с этим процессом, известным как логический вывод, с графическими процессорами, включающими ядра, специально разработанные для возможностей искусственного интеллекта, и объединяет это оборудование с программным обеспечением TensorRT, которое оптимизирует производительность, по сути, находя ярлыки для работы с моделями без ущерба для точности.

Эти ядра на базе искусственного интеллекта известны как тензорные ядра и являются основой NVIDIA TensorRT, программного обеспечения, которое позволяет приложениям искусственного интеллекта работать на оборудовании NVIDIA для экстремального ускорения их вывода. В то время как ваш типичный компьютер может иметь аппаратное обеспечение, обеспечивающее производительность от 10 до 45 тераопс искусственного интеллекта (TOPS), новейшие графические процессоры NVIDIA RTX могут работать от 200 до 1300 TOPS, и это локальная обработка на устройстве. Графические процессоры для центров обработки данных могут поднять его на новый уровень.

С распространением графических процессоров NVIDIA RTX для ноутбуков, настольных компьютеров и центров обработки данных, предлагающих тензорные ядра, необходимые для работы с TensorRT SDK, оборудование NVIDIA ускоряет операции искусственного интеллекта по всем направлениям.

Используя TensorRT-LLM, программное обеспечение, которое берет модели искусственного интеллекта и оптимизирует их для работы на оборудовании NVIDIA, эти тензорные ядра можно использовать для работы с новейшими популярными LLM, такими как Llama2 или Mistral. Это позволяет не только быстро запускать эти LLM на устройстве без необходимости пересылки информации между вашим компьютером и центром обработки данных (т. е. без необходимости подключения к Интернету), но также позволяет передавать новую информацию LLM, чтобы настроить ее, а затем запросить ее с учетом этих новых данных.

NVIDIA даже создала ChatRTX, чтобы упростить этот процесс для новых пользователей. Вот краткий обзор того, как это работает.

Благодаря скорости локальной обработки, ускоренной тензорными ядрами, и доступным настройкам, TensorRT и TensorRT-LLM делают ИИ еще более доступным, и это сделало NVIDIA одним из лучших игроков в этой области.

Если в вашей системе работает оборудование NVIDIA RTX, вы можете подключиться к TensorRT прямо сейчас, чтобы начать локально запускать генераторы текста и изображений AI. И это лишь малая часть того, что вы можете сделать.

Чтобы быть в курсе последних разработок TensorRT и возможностей искусственного интеллекта NVIDIA, следите за серией NVIDIA AI Decoded. Там вы найдете новости об искусственном интеллекте, а также полезные и понятные объяснения технологий, работающих за кулисами, и наглядные обзоры того, как другие используют искусственный интеллект на базе RTX для решения самых разных задач.