Компания AMD представила AMD OLMo, свой первый LLM с параметрами 1B и убедительной логикой

Компания AMD

Advanced Micro Devices, Inc. (AMD, дословный перевод с англ. — «передовые микроустройства») — производитель интегральной микросхемной электроники. Второй по объему производства и продаж производитель процессоров архитектуры x86 c долей рынка 16,9 %▲(2014), а также один из крупнейших производителей графических процессоров (после приобретения ATI Technologies в 2006 году), чипсетов для материнских плат и флеш-памяти. Компания с 2009 года не имеет собственного производства и размещает заказы на мощностях других компаний. Википедия

Читайте также:AMD тихо повышает характеристики Ryzen AI 300 «Strix Point» для поддержки LPDDR5X-8000Впервые AMD обогнала Intel по продажам в сфере центров обработки данныхПортативный OLED-дисплей на базе AMD стремится составить конкуренцию Steam Deck OLEDЭксклюзивная для Китая линейка готовых ПК от AMD получила обновление до Ryzen 7 9800X3DОбновление опроса Steam: самые популярные модели GPU

представила свою первую серию полностью открытых моделей large language models (LLM) с 1 миллиардом параметров под названием AMD OLMo, которые предназначены для различных приложений и предварительно разработаны на графических процессорах Instinct MI250 компании. Считается, что LLM предлагают убедительные аргументы, возможность следовать инструкциям и общаться в чате.

LLM с открытым исходным кодом от AMD призваны укрепить позиции компании в индустрии искусственного интеллекта и дать возможность ее клиентам (и всем остальным) использовать эти модели с открытым исходным кодом на оборудовании AMD. Используя открытые источники данных, весовые коэффициенты, обучающие рецепты и код, AMD стремится дать разработчикам возможность не только копировать модели, но и использовать их для дальнейших инноваций. Помимо использования в центрах обработки данных, AMD обеспечила локальное развертывание моделей OLMo на компьютерах AMD Ryzen AI, оснащенных нейронными процессорами (NPU), что позволяет разработчикам использовать модели ИИ на персональных устройствах.

Многоступенчатая предварительная подготовка

Модели AMD OLMo были обучены на обширном наборе данных из 1,3 трлн токенов на 16 узлах, каждый из которых оснащен четырьмя графическими процессорами AMD Instinct MI250 (всего 64 процессора). Обучение линейки моделей AMD OLMo проходило в три этапа.

Изображение: AMD

  • Начальный AMD OLMo 1B, предварительно обученный на базе Dolma версии 1.7, представляет собой преобразователь только для декодирования, ориентированный на предсказание следующего токена для получения языковых шаблонов и общих знаний.
  • Вторая версия - AMD OLMo 1B supervised fine-tuned (SFT) - была обучена на наборе данных on Tulu V2 (1-я фаза), а затем на наборах данных OpenHermes-2.5, WebInstructSub и Code-Feedback (2-я фаза), чтобы усовершенствовать выполнение инструкций и повысить производительность в задачах, связанных с наукой, программированием и программным обеспечением. математика.
  • После тонкой настройки модель AMD OLMo 1B SFT была приведена в соответствие с предпочтениями человека с помощью прямой оптимизации предпочтений (DPO) с использованием набора данных UltraFeedback, что привело к созданию окончательной версии AMD OLMo 1B SFT DPO для определения приоритетов выходных данных, которые соответствуют типичным отзывам человека.
  • Performance results

    Изображение: AMD

    В ходе собственного тестирования AMD модели AMD OLMo продемонстрировали впечатляющую производительность по сравнению с аналогичными моделями с открытым исходным кодом, такими как TinyLlama-1.1B, MobiLlama-1B и OpenELM-1_1B, в стандартных тестах на общую логику и понимание многозадачности.

    Изображение: AMD

    Двухфазная модель SFT значительно улучшила точность: показатели MMLU увеличились на 5,09%, а GSM8k - на 15,32%, что свидетельствует о влиянии подхода AMD к обучению. Финальная модель AMD OLMo 1B SFT DPO превзошла другие модели чата с открытым исходным кодом как минимум на 2,60% в среднем по всем тестам.

    Изображение: AMD

    Что касается результатов настройки команд моделей AMD OLMo в тестах чата, то, в частности, при сравнении моделей AMD OLMo 1B SFT и AMD OLMo 1B SFT DPO с другими моделями с настройкой команд, модели AMD превзошли следующего лучшего конкурента по показателям выигрыша AlpacaEval 2 на +3,41% и выигрыша AlpacaEval 2 LC. на +2,29%. Кроме того, в ходе стендового теста MT, в ходе которого оценивались возможности многооборотного общения, модель SFT DPO продемонстрировала прирост производительности на +0,97% по сравнению со своим ближайшим конкурентом.

    Изображение: AMD

    Кроме того, AMD протестировала ответственные тесты искусственного интеллекта, такие как ToxiGen (который измеряет токсичные формулировки, где более низкий балл означает больше), crows_pairs (оценка предвзятости) и TruthfulQA-mc2 (оценка правдивости ответов). Было обнаружено, что модели AMD OLMo не уступают аналогичным моделям в решении этичных и ответственных задач искусственного интеллекта.

    Источник: Tomshardware.com

    Подписаться на обновления Новости / Технологии

    0 комментариев

    Оставить комментарий


    Новые комментарии

    Указан неверный диаметр вентиляторов, не 80 мм, а 100 мм. И чип не 103, а 102.
    • Анон
    С прошлым обновлением как раз и появилась эта ошибка. А новое как и написано не дают скачать.
    • Анон
    При включении 3D Turbo Mode у вас максимум будет доступно 8 ядер и 8 потоков всего. т.е. если у вас 16 ядерный на 32 потока то будет всего 8 ядер и 8 потоков! Странная оптимизация!
    • Анон
    После скачивания вышел синий экран СУПЕР!
    • Анон
    требуется указать магазин и purchase date без этого не регистрирует
    • Анон
    Россия на них клала❤❤❤❤, будет называться Ладушка 2.0 )))
    • Анон
    ДА у меня тоже неработает уже все Вы не знаете каким способом вернуть все обратно СПАСИ
    • Анон
    Хаетв Рустам Базарвич Хаетв
    • Анон
    Очень довольна приложением. Пользуюсь сама и рекомендую другим.
    16 способ - Ноутбук HP ProBook 4740s автоматически установлена камера HP HD Webcam [Fixed] при этом онлайн из браузера подключается камера к веб страницам, камера работает. С приложениями камера...
    • Анон

    Смотреть все