NVIDIA работает над Llama3.1
NVIDIA официально выпустила свою модель Llama-3.1-Nemotron-70B-Instruct. Модель Nemotron, основанная на Llama3.1 70B от META, представляет собой большую языковую модель, настроенную NVIDIA для повышения полезности ответов, сгенерированных LLM. NVIDIA использует тонко настроенные структурированные данные, чтобы направлять модель и позволять ей генерировать более полезные ответы. Имея всего 70 миллиардов параметров, модель намного превосходит свою весовую категорию. Компания утверждает, что модель превосходит текущие топовые модели из ведущих лабораторий, таких как GPT-4o от OpenAI и Claude 3.5 Sonnet от Antrophic, которые являются нынешними лидерами в тестах ИИ. В таких оценках, как Arena Hard, NVIDIA Llama3.1 Nemotron 70B набирает 85 баллов, в то время как GPT-4o и Sonnet 3.5 набирают 79,3 и 79,2 балла соответственно. Другие бенчмарки, такие как AlpacaEval и MT-Bench, также удерживают первое место, набрав 57,6 и 8,98 баллов. Claude и GPT достигают 52,4 / 8,81 и 57,5 / 8,74, чуть ниже Nemotron.
Эта языковая модель прошла обучение с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF), в частности, с использованием алгоритма REINFORCE. Процесс включал модель вознаграждения, основанную на большой архитектуре языковой модели, и пользовательские подсказки предпочтений, разработанные для управления поведением модели. Обучение началось с уже существующей языковой модели с настроенными инструкциями в качестве отправной точки. Она была обучена на подсказках Llama-3.1-Nemotron-70B-Reward и HelpSteer2-Preference на модели Llama-3.1-70B-Instruct в качестве начальной политики. Для локального запуска модели требуется либо четыре 40 ГБ, либо два 80 ГБ VRAM GPU и 150 ГБ свободного места на диске. Нам удалось опробовать ее на веб-сайте NVIDIA, чтобы поприветствовать читателей TechPowerUp. Модель также проходит печально известный «клубничный» тест, в котором ей необходимо подсчитать количество определенных букв в слове, однако, судя по всему, это было частью данных тонкой настройки, поскольку она не проходит следующий тест, показанный на изображении ниже.
Источник: NVIDIA
0 комментариев