Intel и Институт Вейцмана ускоряют ИИ с помощью нового метода спекулятивного декодирования
На Международной конференции по машинному обучению (ICML) исследователи из Intel Labs и Института Вейцмана представили значительный прорыв в области спекулятивного декодирования. Новая методика, представленная на конференции в Ванкувере (Канада), позволяет любому небольшому «черновому» модели ускорять работу любой крупной языковой модели (LLM), независимо от различий в словарях.
«Мы решили ключевую проблему неэффективности в генеративном ИИ. Наше исследование показывает, как превратить спекулятивное ускорение в универсальный инструмент. Это не просто теоретическое улучшение — это практические инструменты, которые уже помогают разработчикам создавать более быстрые и умные приложения», — заявил Орен Перег, старший исследователь группы обработки естественного языка Intel Labs.
Спекулятивное декодирование — это метод оптимизации вывода, призванный ускорить работу LLM без потери точности. Он работает за счёт совместного использования небольшой быстрой модели и более крупной, но точной, создавая «командный эффект». Например, при запросе «Какая столица Франции…» традиционная LLM генерирует каждое слово последовательно: сначала «Париж», затем «известный», потом «город» и так далее, потребляя значительные ресурсы на каждом шаге. При спекулятивном декодировании небольшая модель-ассистент быстро создаёт черновой вариант фразы «Париж, известный город…», а крупная модель проверяет её. Это значительно сокращает вычислительные циклы на каждый токен.
Почему это важно: Универсальный метод Intel и Института Вейцмана устраняет ограничения, связанные с общими словарями или совместно обученными моделями, делая спекулятивное декодирование применимым к разнородным моделям. Он обеспечивает ускорение вывода до 2,8 раз без потери качества. Кроме того, метод работает с моделями от разных разработчиков и экосистем, что делает его независимым от поставщиков. Решение уже доступно в открытом исходном коде через интеграцию с библиотекой Hugging Face Transformers.
«Эта работа устраняет серьёзное техническое препятствие на пути к более быстрому и дешёвому генеративному ИИ, — отметил Надав Тимор, аспирант исследовательской группы профессора Давида Хареля в Институте Вейцмана. — Наши алгоритмы открывают доступ к передовым методам ускорения, которые раньше были доступны только организациям, обучающим свои собственные черновые модели».
Исследовательская работа представляет три новых алгоритма, которые отделяют спекулятивное кодирование от выравнивания словарей. Это открывает путь к гибкому развёртыванию LLM, позволяя разработчикам комбинировать любые небольшие черновые модели с крупными для оптимизации скорости и стоимости вывода на различных платформах.
Исследование носит не только теоретический характер. Алгоритмы уже интегрированы в открытую библиотеку Hugging Face Transformers, которую используют миллионы разработчиков. Благодаря этой интеграции передовые методы ускорения LLM доступны «из коробки» без необходимости написания собственного кода.
Источник: Techpowerup.com
0 комментариев