Выпущен стабильный релиз AReaL v1.0: фреймворк для обучения агентов с подкреплением
Сегодня компания Ant Group совместно с Университетом Цинхуа представила стабильную версию 1.0 открытого фреймворка для обучения с подкреплением AReaL. Его ключевая особенность — возможность «одним кликом» подключить агента к обучению с подкреплением (RL). Система совместима с различными фреймворками для агентов без необходимости изменять их код, что делает обучение интеллектуальных агентов готовым к использованию «из коробки».
В последнее время набирают популярность фреймворки для создания агентов, такие как LangChain, Claude Code и OpenClaw, однако они сталкиваются с двумя основными проблемами.
Во-первых, высокая стоимость подключения к обучению: существующие фреймворки имеют разные интерфейсы, и для подключения каждого из них часто приходится писать целый адаптивный код. Кроме того, возможности большинства агентов ограничены фиксированными весами базовой модели, и после развертывания их нельзя оптимизировать для конкретных сценариев.
AReaL — это первая полностью асинхронная система обучения с подкреплением для больших языковых моделей с разделением обучения и вывода. Она позволяет агенту получать обратную связь в процессе взаимодействия с реальными задачами и постоянно оптимизировать принятие решений.
Выпущенная версия v1.0 делает реальностью подключение любого агента к RL-обучению без доработок. Благодаря добавлению промежуточного слоя Proxy Worker между агентом и системой обучения, разработчикам для подключения достаточно изменить только адрес запроса.
Например, для OpenClaw разработчику нужно лишь в файле конфигурации указать base_url и api_key на шлюз AReaL, чтобы подключить агента к обучению с подкреплением.
Пользователи периодически оценивают качество выполнения задач, а AReaL автоматически собирает данные и обновляет модель в фоновом режиме, позволяя агенту постоянно эволюционировать в процессе использования.
Эта версия также включает в себя собственный движок обучения Archon, реализованный на PyTorch с полной 5D-параллелизацией (параллелизм данных, конвейерный параллелизм, тензорный параллелизм, контекстный параллелизм, параллелизм экспертов). Это обеспечивает гибкость развертывания в различных средах и позволяет поддерживать распределенное обучение моделей MoE с параметрами масштаба в сотни миллиардов.
В будущем разработка будет продолжена в направлениях совершенствования движка обучения, удобства использования и обучения мультимодальных агентов. В настоящее время код и документация AReaL v1.0 уже открыты в сообществе inclusionAI.









0 комментариев