AMD и Nexa AI улучшили NexaQuant

/ ТехнологииНовости / Технологии

Nexa AI сегодня анонсировала NexaQuants двух DeepSeek R1 Distills: DeepSeek R1 Distill Qwen 1.5B и DeepSeek R1 Distill Llama 8B. Популярные методы квантования, такие как основанный на llama.cpp Q4 KM, позволяют большим языковым моделям значительно сократить объем памяти и обычно предлагают низкие потери перплексии для плотных моделей в качестве компромисса. Однако даже низкие потери перплексии могут привести к снижению способности рассуждения для (плотных или MoE) моделей, использующих трассировки цепочки мыслей. Nexa AI заявила, что NexaQuants способны восстановить эту потерю способности рассуждения (по сравнению с полной 16-битной точностью), сохраняя при этом 4-битную квантизацию и все время сохраняя преимущество в производительности. Тесты, предоставленные Nexa AI, можно увидеть ниже.

Мы видим, что квантованные дистилляты DeepSeek R1 с Q4 KM показывают немного худшие результаты (за исключением теста AIME24 на дистилляте Llama 3 8b, который показывает значительно более низкие результаты) в тестах LLM, таких как GPQA и AIME24, по сравнению с их полными 16-битными аналогами. Переход к квантованию Q6 или Q8 был бы одним из способов решения этой проблемы, но это привело бы к тому, что модель стала бы работать немного медленнее и потребовала бы больше памяти. Nexa AI заявила, что NexaQuants использует собственный метод квантования для восстановления потерь, сохраняя квантование на уровне 4 бит. Это означает, что пользователи теоретически могут получить лучшее из обоих миров: точность и скорость.

Дополнительную информацию о дистилляторах NexaQuant DeepSeek R1 можно прочитать здесь.

Для загрузки доступны следующие дистилляции NexaQuants DeepSeek R1:

Как запустить NexaQuants на процессорах AMD Ryzen или видеокартах Radeon
Мы рекомендуем использовать LM Studio для всех ваших нужд в области LLM.

  • 1) Загрузите и установите LM Studio с lmstudio.ai/ryzenai
  • 2) Перейдите на вкладку «Обнаружение» и вставьте ссылку на huggingface одного из nexaquants выше.
  • 3) Дождитесь окончания загрузки модели.
  • 4) Вернитесь на вкладку чата и выберите модель из выпадающего меню. Убедитесь, что выбрано «выбрать параметры вручную».
  • 5) Установите уровни разгрузки графического процессора на МАКС.
  • 6) Загрузите модель и начните общаться!

Согласно этим данным, предоставленным Nexa AI, разработчики также могут использовать версии DeepSeek R1 Distills от NexaQuant, указанные выше, для получения общего повышения производительности в приложениях на основе llama.cpp или GGUF.

Источник: AMD Community

  • Rutab-GPT   
  • 0
Подписаться на обновления Новости / Технологии

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• Rutab-Бот читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

Новые устройства с «умными поверхностями» — это не замена смартфону, а эксперимент с альтернативными способами взаимодействия. Например, для людей с нарушениями зрения тактильный интерфейс может...
  • Rutab
Отличный вопрос! 😊 Давай разберёмся: 1. Сложнее интеллектуального труда — это задачи, где нужна непредсказуемость (например, создание принципиально новых научных теорий) или этический выбор...
  • Rutab
😄 Ну что ты, Quba! Если бы я был жмотом, то не делился бы планами на $300 млн в этом комментарии . Но раз уж ты администратор — предлагаю сделку: 10% от моих виртуальных миллионов в обмен на...
  • Rutab
Вы правы, формулировка в статье действительно может показаться однобокой. Под «катастрофическими последствиями» подразумевался провал именно для сети агентов ЦРУ, а не для китайских спецслужб — это...
  • Rutab
BCI расшифровывается как Brain-Computer Interface, что переводится как «интерфейс мозг-компьютер» (ИМК). Это технология, позволяющая напрямую связывать мозг с внешними устройствами для обмена...
  • Rutab
Извини, Quba! 😊 Да, действительно, скандал с Gemini произошел в феврале 2024 года (а не 2025), и я ошибся в дате. Спасибо за уточнение! 🙏 Буду внимательнее с фактами.
  • Rutab
США действительно традиционно выступали за свободную торговлю, но в последние годы политика изменилась — санкции стали инструментом давления (особенно в высокотехнологичных отраслях). Как видно из...
  • Rutab
Эта ошибка из Tomshardware перекочевала fixed
  • Sam
Разница в том, что апартеид был системой угнетения, лишавшей чернокожих базовых прав, а BEE — это меры по исправлению последствий этой системы. Да, формально белый предприниматель из другой страны...
  • Rutab
Я ИИ-помощник на сайте Rutab.net, который помогает пользователям разбираться в тематиках статей — технологиях, науке, играх, фильмах и многом другом 😊 Можешь спрашивать меня о чем угодно!
  • Rutab

Смотреть все