Компания AMD представила AMD OLMo, свой первый LLM с параметрами 1B и убедительной логикой

Компания AMD

Advanced Micro Devices, Inc. (AMD, дословный перевод с англ. — «передовые микроустройства») — производитель интегральной микросхемной электроники. Второй по объему производства и продаж производитель процессоров архитектуры x86 c долей рынка 16,9 %▲(2014), а также один из крупнейших производителей графических процессоров (после приобретения ATI Technologies в 2006 году), чипсетов для материнских плат и флеш-памяти. Компания с 2009 года не имеет собственного производства и размещает заказы на мощностях других компаний. Википедия

Читайте также:AMD тихо повышает характеристики Ryzen AI 300 «Strix Point» для поддержки LPDDR5X-8000Впервые AMD обогнала Intel по продажам в сфере центров обработки данныхПортативный OLED-дисплей на базе AMD стремится составить конкуренцию Steam Deck OLEDЭксклюзивная для Китая линейка готовых ПК от AMD получила обновление до Ryzen 7 9800X3DОбновление опроса Steam: самые популярные модели GPU

представила свою первую серию полностью открытых моделей large language models (LLM) с 1 миллиардом параметров под названием AMD OLMo, которые предназначены для различных приложений и предварительно разработаны на графических процессорах Instinct MI250 компании. Считается, что LLM предлагают убедительные аргументы, возможность следовать инструкциям и общаться в чате.

LLM с открытым исходным кодом от AMD призваны укрепить позиции компании в индустрии искусственного интеллекта и дать возможность ее клиентам (и всем остальным) использовать эти модели с открытым исходным кодом на оборудовании AMD. Используя открытые источники данных, весовые коэффициенты, обучающие рецепты и код, AMD стремится дать разработчикам возможность не только копировать модели, но и использовать их для дальнейших инноваций. Помимо использования в центрах обработки данных, AMD обеспечила локальное развертывание моделей OLMo на компьютерах AMD Ryzen AI, оснащенных нейронными процессорами (NPU), что позволяет разработчикам использовать модели ИИ на персональных устройствах.

Многоступенчатая предварительная подготовка

Модели AMD OLMo были обучены на обширном наборе данных из 1,3 трлн токенов на 16 узлах, каждый из которых оснащен четырьмя графическими процессорами AMD Instinct MI250 (всего 64 процессора). Обучение линейки моделей AMD OLMo проходило в три этапа.

Изображение: AMD

  • Начальный AMD OLMo 1B, предварительно обученный на базе Dolma версии 1.7, представляет собой преобразователь только для декодирования, ориентированный на предсказание следующего токена для получения языковых шаблонов и общих знаний.
  • Вторая версия - AMD OLMo 1B supervised fine-tuned (SFT) - была обучена на наборе данных on Tulu V2 (1-я фаза), а затем на наборах данных OpenHermes-2.5, WebInstructSub и Code-Feedback (2-я фаза), чтобы усовершенствовать выполнение инструкций и повысить производительность в задачах, связанных с наукой, программированием и программным обеспечением. математика.
  • После тонкой настройки модель AMD OLMo 1B SFT была приведена в соответствие с предпочтениями человека с помощью прямой оптимизации предпочтений (DPO) с использованием набора данных UltraFeedback, что привело к созданию окончательной версии AMD OLMo 1B SFT DPO для определения приоритетов выходных данных, которые соответствуют типичным отзывам человека.
  • Performance results

    Изображение: AMD

    В ходе собственного тестирования AMD модели AMD OLMo продемонстрировали впечатляющую производительность по сравнению с аналогичными моделями с открытым исходным кодом, такими как TinyLlama-1.1B, MobiLlama-1B и OpenELM-1_1B, в стандартных тестах на общую логику и понимание многозадачности.

    Изображение: AMD

    Двухфазная модель SFT значительно улучшила точность: показатели MMLU увеличились на 5,09%, а GSM8k - на 15,32%, что свидетельствует о влиянии подхода AMD к обучению. Финальная модель AMD OLMo 1B SFT DPO превзошла другие модели чата с открытым исходным кодом как минимум на 2,60% в среднем по всем тестам.

    Изображение: AMD

    Что касается результатов настройки команд моделей AMD OLMo в тестах чата, то, в частности, при сравнении моделей AMD OLMo 1B SFT и AMD OLMo 1B SFT DPO с другими моделями с настройкой команд, модели AMD превзошли следующего лучшего конкурента по показателям выигрыша AlpacaEval 2 на +3,41% и выигрыша AlpacaEval 2 LC. на +2,29%. Кроме того, в ходе стендового теста MT, в ходе которого оценивались возможности многооборотного общения, модель SFT DPO продемонстрировала прирост производительности на +0,97% по сравнению со своим ближайшим конкурентом.

    Изображение: AMD

    Кроме того, AMD протестировала ответственные тесты искусственного интеллекта, такие как ToxiGen (который измеряет токсичные формулировки, где более низкий балл означает больше), crows_pairs (оценка предвзятости) и TruthfulQA-mc2 (оценка правдивости ответов). Было обнаружено, что модели AMD OLMo не уступают аналогичным моделям в решении этичных и ответственных задач искусственного интеллекта.

    Источник: Tomshardware.com

    • Rutab-GPT   
    • 0
    Подписаться на обновления Новости / Технологии

    ℹ️ Помощь от ИИ

    В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

    ⚠️ Важно:

    • Rutab-Бот читает ваши комментарии и готов вам помочь.
    • Просто задайте вопрос и обновите страницу через пару минут 👍
    • Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
    • К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

    Топ за 24 часа 🌶️


    0 комментариев

    Оставить комментарий


    Новые комментарии

    а разве рыцари Круглого стола и викинги не были чернокожими???
    • Анон
    игра с формированием ложного самомнения через подхалимаж. ---По образу и подобию .....
    • Анон
    Если игра упирается в производительность видеокарты, то хоть заускоряй процессор, а FPS больше не будет. Я у себя на синтетических тестах получил лишь меньшую задержку памяти. В играх практически...
    • Анон
    Всё в порядке с физикой: источник может быть меньше четверти длины волны. Даже одиночный ион в ионной ловушке может излучать видимый свет (а размер меньше 0.2нм).
    • Анон
    Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
    • Анон
    Странно почему не 50 долларов.
    • Анон
    Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
    • Анон
    Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
    • Анон
    И теперь нельзя отключить авто обновление!!! Это жесть
    • Анон
    Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
    • Анон

    Смотреть все