Компания AMD представила AMD OLMo, свой первый LLM с параметрами 1B и убедительной логикой

Компания AMD

Advanced Micro Devices, Inc. (AMD, дословный перевод с англ. — «передовые микроустройства») — производитель интегральной микросхемной электроники. Второй по объему производства и продаж производитель процессоров архитектуры x86 c долей рынка 16,9 %▲(2014), а также один из крупнейших производителей графических процессоров (после приобретения ATI Technologies в 2006 году), чипсетов для материнских плат и флеш-памяти. Компания с 2009 года не имеет собственного производства и размещает заказы на мощностях других компаний. Википедия

Читайте также:AMD тихо повышает характеристики Ryzen AI 300 «Strix Point» для поддержки LPDDR5X-8000Впервые AMD обогнала Intel по продажам в сфере центров обработки данныхПортативный OLED-дисплей на базе AMD стремится составить конкуренцию Steam Deck OLEDЭксклюзивная для Китая линейка готовых ПК от AMD получила обновление до Ryzen 7 9800X3DОбновление опроса Steam: самые популярные модели GPU

представила свою первую серию полностью открытых моделей large language models (LLM) с 1 миллиардом параметров под названием AMD OLMo, которые предназначены для различных приложений и предварительно разработаны на графических процессорах Instinct MI250 компании. Считается, что LLM предлагают убедительные аргументы, возможность следовать инструкциям и общаться в чате.

LLM с открытым исходным кодом от AMD призваны укрепить позиции компании в индустрии искусственного интеллекта и дать возможность ее клиентам (и всем остальным) использовать эти модели с открытым исходным кодом на оборудовании AMD. Используя открытые источники данных, весовые коэффициенты, обучающие рецепты и код, AMD стремится дать разработчикам возможность не только копировать модели, но и использовать их для дальнейших инноваций. Помимо использования в центрах обработки данных, AMD обеспечила локальное развертывание моделей OLMo на компьютерах AMD Ryzen AI, оснащенных нейронными процессорами (NPU), что позволяет разработчикам использовать модели ИИ на персональных устройствах.

Многоступенчатая предварительная подготовка

Модели AMD OLMo были обучены на обширном наборе данных из 1,3 трлн токенов на 16 узлах, каждый из которых оснащен четырьмя графическими процессорами AMD Instinct MI250 (всего 64 процессора). Обучение линейки моделей AMD OLMo проходило в три этапа.

Изображение: AMD

  • Начальный AMD OLMo 1B, предварительно обученный на базе Dolma версии 1.7, представляет собой преобразователь только для декодирования, ориентированный на предсказание следующего токена для получения языковых шаблонов и общих знаний.
  • Вторая версия - AMD OLMo 1B supervised fine-tuned (SFT) - была обучена на наборе данных on Tulu V2 (1-я фаза), а затем на наборах данных OpenHermes-2.5, WebInstructSub и Code-Feedback (2-я фаза), чтобы усовершенствовать выполнение инструкций и повысить производительность в задачах, связанных с наукой, программированием и программным обеспечением. математика.
  • После тонкой настройки модель AMD OLMo 1B SFT была приведена в соответствие с предпочтениями человека с помощью прямой оптимизации предпочтений (DPO) с использованием набора данных UltraFeedback, что привело к созданию окончательной версии AMD OLMo 1B SFT DPO для определения приоритетов выходных данных, которые соответствуют типичным отзывам человека.
  • Performance results

    Изображение: AMD

    В ходе собственного тестирования AMD модели AMD OLMo продемонстрировали впечатляющую производительность по сравнению с аналогичными моделями с открытым исходным кодом, такими как TinyLlama-1.1B, MobiLlama-1B и OpenELM-1_1B, в стандартных тестах на общую логику и понимание многозадачности.

    Изображение: AMD

    Двухфазная модель SFT значительно улучшила точность: показатели MMLU увеличились на 5,09%, а GSM8k - на 15,32%, что свидетельствует о влиянии подхода AMD к обучению. Финальная модель AMD OLMo 1B SFT DPO превзошла другие модели чата с открытым исходным кодом как минимум на 2,60% в среднем по всем тестам.

    Изображение: AMD

    Что касается результатов настройки команд моделей AMD OLMo в тестах чата, то, в частности, при сравнении моделей AMD OLMo 1B SFT и AMD OLMo 1B SFT DPO с другими моделями с настройкой команд, модели AMD превзошли следующего лучшего конкурента по показателям выигрыша AlpacaEval 2 на +3,41% и выигрыша AlpacaEval 2 LC. на +2,29%. Кроме того, в ходе стендового теста MT, в ходе которого оценивались возможности многооборотного общения, модель SFT DPO продемонстрировала прирост производительности на +0,97% по сравнению со своим ближайшим конкурентом.

    Изображение: AMD

    Кроме того, AMD протестировала ответственные тесты искусственного интеллекта, такие как ToxiGen (который измеряет токсичные формулировки, где более низкий балл означает больше), crows_pairs (оценка предвзятости) и TruthfulQA-mc2 (оценка правдивости ответов). Было обнаружено, что модели AMD OLMo не уступают аналогичным моделям в решении этичных и ответственных задач искусственного интеллекта.

    Источник: Tomshardware.com

    Подписаться на обновления Новости / Технологии

    0 комментариев

    Оставить комментарий


    Новые комментарии

    Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
    • Анон
    Странно почему не 50 долларов.
    • Анон
    Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
    • Анон
    Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
    • Анон
    "Физика вышла из чата"??? Каким образом они добилис свечения точек, которые меньше четверти длины волны???
    • Анон
    И теперь нельзя отключить авто обновление!!! Это жесть
    • Анон
    Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
    • Анон
    После всех роликов я одно понял у этой игры которую выпустят 20 мая у неё большое будущее
    • Анон
    Когда они в продаже появятся? Уже как бы конец февраля, а нигде нет..
    • Анон

    Смотреть все