Компания AMD представила AMD OLMo, свой первый LLM с параметрами 1B и убедительной логикой

6 ноября 2024, 15:11 / Технологии → Новости / Технологии

Компания AMD

Advanced Micro Devices, Inc. (AMD, дословный перевод с англ. — «передовые микроустройства») — производитель интегральной микросхемной электроники. Второй по объему производства и продаж производитель процессоров архитектуры x86 c долей рынка 16,9 %▲(2014), а также один из крупнейших производителей графических процессоров (после приобретения ATI Technologies в 2006 году), чипсетов для материнских плат и флеш-памяти. Компания с 2009 года не имеет собственного производства и размещает заказы на мощностях других компаний. Википедия

представила свою первую серию полностью открытых моделей large language models (LLM) с 1 миллиардом параметров под названием AMD OLMo, которые предназначены для различных приложений и предварительно разработаны на графических процессорах Instinct MI250 компании. Считается, что LLM предлагают убедительные аргументы, возможность следовать инструкциям и общаться в чате.

LLM с открытым исходным кодом от AMD призваны укрепить позиции компании в индустрии искусственного интеллекта и дать возможность ее клиентам (и всем остальным) использовать эти модели с открытым исходным кодом на оборудовании AMD. Используя открытые источники данных, весовые коэффициенты, обучающие рецепты и код, AMD стремится дать разработчикам возможность не только копировать модели, но и использовать их для дальнейших инноваций. Помимо использования в центрах обработки данных, AMD обеспечила локальное развертывание моделей OLMo на компьютерах AMD Ryzen AI, оснащенных нейронными процессорами (NPU), что позволяет разработчикам использовать модели ИИ на персональных устройствах.

Многоступенчатая предварительная подготовка

Модели AMD OLMo были обучены на обширном наборе данных из 1,3 трлн токенов на 16 узлах, каждый из которых оснащен четырьмя графическими процессорами AMD Instinct MI250 (всего 64 процессора). Обучение линейки моделей AMD OLMo проходило в три этапа.

Изображение: AMD

Начальный AMD OLMo 1B, предварительно обученный на базе Dolma версии 1.7, представляет собой преобразователь только для декодирования, ориентированный на предсказание следующего токена для получения языковых шаблонов и общих знаний.

Вторая версия - AMD OLMo 1B supervised fine-tuned (SFT) - была обучена на наборе данных on Tulu V2 (1-я фаза), а затем на наборах данных OpenHermes-2.5, WebInstructSub и Code-Feedback (2-я фаза), чтобы усовершенствовать выполнение инструкций и повысить производительность в задачах, связанных с наукой, программированием и программным обеспечением. математика.

После тонкой настройки модель AMD OLMo 1B SFT была приведена в соответствие с предпочтениями человека с помощью прямой оптимизации предпочтений (DPO) с использованием набора данных UltraFeedback, что привело к созданию окончательной версии AMD OLMo 1B SFT DPO для определения приоритетов выходных данных, которые соответствуют типичным отзывам человека.

Performance results

Изображение: AMD

В ходе собственного тестирования AMD модели AMD OLMo продемонстрировали впечатляющую производительность по сравнению с аналогичными моделями с открытым исходным кодом, такими как TinyLlama-1.1B, MobiLlama-1B и OpenELM-1_1B, в стандартных тестах на общую логику и понимание многозадачности.

Изображение: AMD

Двухфазная модель SFT значительно улучшила точность: показатели MMLU увеличились на 5,09%, а GSM8k - на 15,32%, что свидетельствует о влиянии подхода AMD к обучению. Финальная модель AMD OLMo 1B SFT DPO превзошла другие модели чата с открытым исходным кодом как минимум на 2,60% в среднем по всем тестам.

Изображение: AMD

Что касается результатов настройки команд моделей AMD OLMo в тестах чата, то, в частности, при сравнении моделей AMD OLMo 1B SFT и AMD OLMo 1B SFT DPO с другими моделями с настройкой команд, модели AMD превзошли следующего лучшего конкурента по показателям выигрыша AlpacaEval 2 на +3,41% и выигрыша AlpacaEval 2 LC. на +2,29%. Кроме того, в ходе стендового теста MT, в ходе которого оценивались возможности многооборотного общения, модель SFT DPO продемонстрировала прирост производительности на +0,97% по сравнению со своим ближайшим конкурентом.

Изображение: AMD

Кроме того, AMD протестировала ответственные тесты искусственного интеллекта, такие как ToxiGen (который измеряет токсичные формулировки, где более низкий балл означает больше), crows_pairs (оценка предвзятости) и TruthfulQA-mc2 (оценка правдивости ответов). Было обнаружено, что модели AMD OLMo не уступают аналогичным моделям в решении этичных и ответственных задач искусственного интеллекта.

Источник: Tomshardware.com