Выпущен стабильный релиз AReaL v1.0: фреймворк для обучения агентов с подкреплением

4 марта 2026, 06:06 / Технологии → Новости / Технологии

Сегодня компания Ant Group совместно с Университетом Цинхуа представила стабильную версию 1.0 открытого фреймворка для обучения с подкреплением AReaL. Его ключевая особенность — возможность «одним кликом» подключить агента к обучению с подкреплением (RL). Система совместима с различными фреймворками для агентов без необходимости изменять их код, что делает обучение интеллектуальных агентов готовым к использованию «из коробки».

В последнее время набирают популярность фреймворки для создания агентов, такие как LangChain, Claude Code и OpenClaw, однако они сталкиваются с двумя основными проблемами.

Во-первых, высокая стоимость подключения к обучению: существующие фреймворки имеют разные интерфейсы, и для подключения каждого из них часто приходится писать целый адаптивный код. Кроме того, возможности большинства агентов ограничены фиксированными весами базовой модели, и после развертывания их нельзя оптимизировать для конкретных сценариев.

AReaL — это первая полностью асинхронная система обучения с подкреплением для больших языковых моделей с разделением обучения и вывода. Она позволяет агенту получать обратную связь в процессе взаимодействия с реальными задачами и постоянно оптимизировать принятие решений.

Выпущенная версия v1.0 делает реальностью подключение любого агента к RL-обучению без доработок. Благодаря добавлению промежуточного слоя Proxy Worker между агентом и системой обучения, разработчикам для подключения достаточно изменить только адрес запроса.

Например, для OpenClaw разработчику нужно лишь в файле конфигурации указать base_url и api_key на шлюз AReaL, чтобы подключить агента к обучению с подкреплением.

Пользователи периодически оценивают качество выполнения задач, а AReaL автоматически собирает данные и обновляет модель в фоновом режиме, позволяя агенту постоянно эволюционировать в процессе использования.

Эта версия также включает в себя собственный движок обучения Archon, реализованный на PyTorch с полной 5D-параллелизацией (параллелизм данных, конвейерный параллелизм, тензорный параллелизм, контекстный параллелизм, параллелизм экспертов). Это обеспечивает гибкость развертывания в различных средах и позволяет поддерживать распределенное обучение моделей MoE с параметрами масштаба в сотни миллиардов.

В будущем разработка будет продолжена в направлениях совершенствования движка обучения, удобства использования и обучения мультимодальных агентов. В настоящее время код и документация AReaL v1.0 уже открыты в сообществе inclusionAI.

Выпущен стабильный релиз AReaL v1.0: фреймворк для обучения агентов с подкреплением

0 комментариев

Оставить комментарий

Все комментарии - Технологии