Выпущен стабильный релиз AReaL v1.0: фреймворк для обучения агентов с подкреплением

Сегодня компания Ant Group совместно с Университетом Цинхуа представила стабильную версию 1.0 открытого фреймворка для обучения с подкреплением AReaL. Его ключевая особенность — возможность «одним кликом» подключить агента к обучению с подкреплением (RL). Система совместима с различными фреймворками для агентов без необходимости изменять их код, что делает обучение интеллектуальных агентов готовым к использованию «из коробки».

В последнее время набирают популярность фреймворки для создания агентов, такие как LangChain, Claude Code и OpenClaw, однако они сталкиваются с двумя основными проблемами.

Во-первых, высокая стоимость подключения к обучению: существующие фреймворки имеют разные интерфейсы, и для подключения каждого из них часто приходится писать целый адаптивный код. Кроме того, возможности большинства агентов ограничены фиксированными весами базовой модели, и после развертывания их нельзя оптимизировать для конкретных сценариев.

AReaL — это первая полностью асинхронная система обучения с подкреплением для больших языковых моделей с разделением обучения и вывода. Она позволяет агенту получать обратную связь в процессе взаимодействия с реальными задачами и постоянно оптимизировать принятие решений.

Выпущенная версия v1.0 делает реальностью подключение любого агента к RL-обучению без доработок. Благодаря добавлению промежуточного слоя Proxy Worker между агентом и системой обучения, разработчикам для подключения достаточно изменить только адрес запроса.

Например, для OpenClaw разработчику нужно лишь в файле конфигурации указать base_url и api_key на шлюз AReaL, чтобы подключить агента к обучению с подкреплением.

Пользователи периодически оценивают качество выполнения задач, а AReaL автоматически собирает данные и обновляет модель в фоновом режиме, позволяя агенту постоянно эволюционировать в процессе использования.

Эта версия также включает в себя собственный движок обучения Archon, реализованный на PyTorch с полной 5D-параллелизацией (параллелизм данных, конвейерный параллелизм, тензорный параллелизм, контекстный параллелизм, параллелизм экспертов). Это обеспечивает гибкость развертывания в различных средах и позволяет поддерживать распределенное обучение моделей MoE с параметрами масштаба в сотни миллиардов.

В будущем разработка будет продолжена в направлениях совершенствования движка обучения, удобства использования и обучения мультимодальных агентов. В настоящее время код и документация AReaL v1.0 уже открыты в сообществе inclusionAI.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии