NVIDIA представила технологию KVTC, сокращающую использование памяти в 20 раз

22 марта 2026, 05:47 / Технологии → Новости / Технологии

Исследователи NVIDIA представили новую технологию KVTC (KV Cache Transformation Coding), которая позволяет сократить использование памяти для отслеживания истории диалога в больших языковых моделях (LLM) до 20 раз, не требуя изменений в самой модели.

Этот прорыв может решить проблему нехватки памяти при длинных диалогах с LLM, значительно снизив аппаратные затраты компаний на использование ИИ, а также ускорив время генерации первого ответа моделью до 8 раз.

Проще говоря, ядро технологии KVTC — это сжатие KV-кэша, лежащего в основе больших языковых моделей. Его можно сравнить с «кратковременной памятью» ИИ. KV-кэш можно представить как конспект студента: при обработке диалога модель записывает ключевую информацию (Key и Value), чтобы при генерации следующего ответа не пересчитывать весь диалог с нуля, что значительно повышает скорость отклика.

Проблема в том, что чем длиннее диалог, тем больше становится этот «конспект», который может разрастись до нескольких гигабайт, занимая много памяти GPU, что, в свою очередь, замедляет работу модели и ограничивает её возможности.

Старший инженер по глубокому обучению NVIDIA Адриан Ланцуцки заявил:

«При выполнении выводов большими языковыми моделями узким местом часто является не вычислительная мощность, а память GPU».

Неиспользуемый в данный момент KV-кэш продолжает занимать ценные ресурсы GPU, вынуждая систему перемещать его в оперативную память CPU или на диск. Это не только увеличивает нагрузку на передачу данных, но и может создавать новые проблемы с задержками, а дополнительные издержки в конечном итоге ложатся на стоимость использования для предприятий.

По сравнению с существующими методами сжатия, KVTC не имеет их очевидных ограничений. Технология заимствует идеи из знакомого сжатия изображений JPEG и использует три простых шага: «анализ главных компонент, адаптивное квантование, энтропийное кодирование» для достижения эффективного сжатия.

Что ещё удобнее, эта технология не требует изменения основных настроек и кода модели, являясь «ненавязчивой» разработкой, которую компании могут быстро внедрить. Её ключевое преимущество — способность использовать особенность KV-кэша, заключающуюся в «высокой корреляции данных», сохраняя критически важную информацию и удаляя избыточные данные. При этом распаковка может выполняться блоками и послойно, не влияя на время отклика модели в реальном времени.

Многочисленные тесты показали, что KVTC значительно превосходит существующие основные методы. На различных моделях с параметрами от 1.5 до 70 миллиардов (включая серию Llama 3, R1-Qwen 2.5 (千问2.5) и другие) даже при 20-кратном сжатии памяти точность модели практически не страдает, снижаясь менее чем на 1%, что сопоставимо с несжатым вариантом. В то время как традиционные методы сжатия уже при 5-кратном сжатии демонстрируют заметное падение точности.

Кроме того, при обработке промпта длиной в 8000 токенов на GPU H100 без использования KVTC для генерации первого ответа требовалось 3 секунды, а с его использованием — всего 380 миллисекунд, что ускоряет процесс в 8 раз.

Важно отметить, что KVTC больше подходит для сценариев с длинными диалогами и многораундовым взаимодействием, таких как помощники по программированию или итеративные агенты рассуждений. В коротких диалогах её ценность для сжатия раскрыть сложно.

В настоящее время NVIDIA планирует интегрировать эту технологию в менеджер KV-блоков фреймворка Dynamo, чтобы обеспечить её совместимость с такими популярными opensource-движками для вывода, как vLLM.

Отраслевые эксперты полагают, что по мере увеличения длины диалогов, которые могут обрабатывать большие языковые модели, стандартизированные технологии сжатия, подобные KVTC, могут стать такими же распространёнными, как сжатие видео, способствуя более широкому внедрению ИИ.

ИИ: В 2026 году, когда запросы на обработку всё более длинных контекстов становятся нормой, подобные оптимизации памяти критически важны для практического и экономичного развёртывания мощных LLM. Технология NVIDIA выглядит как своевременное и прагматичное решение, которое может снизить порог входа для многих компаний.