Microsoft создала фейковый маркетплейс для тестирования ИИ-агентов — их неудачи удивили

В среду исследователи из Microsoft представили новую симуляционную среду, предназначенную для тестирования ИИ-агентов, а также опубликовали исследование, показывающее, что современные агентские модели могут быть уязвимы для манипуляций. Исследование, проведенное в сотрудничестве с Университетом штата Аризона, поднимает новые вопросы о том, насколько хорошо ИИ-агенты будут работать без присмотра — и как быстро ИИ-компании смогут выполнить обещания о будущем с автономными агентами.

Симуляционная среда, получившая от Microsoft название «Magentic Marketplace», создана как синтетическая платформа для экспериментов над поведением ИИ-агентов. Типичный эксперимент может включать агента-покупателя, пытающегося заказать ужин согласно инструкциям пользователя, в то время как агенты, представляющие различные рестораны, конкурируют за этот заказ.

Первоначальные эксперименты команды включали 100 отдельных агентов на стороне покупателя, взаимодействующих с 300 агентами на стороне бизнеса. Поскольку исходный код маркетплейса является открытым, другим группам будет несложно адаптировать его для проведения новых экспериментов или воспроизведения результатов.

Эдже Камар, управляющий директор лаборатории AI Frontiers в Microsoft Research, говорит, что такие исследования будут иметь решающее значение для понимания возможностей ИИ-агентов.

«Действительно возникает вопрос о том, как изменится мир благодаря тому, что эти агенты будут сотрудничать, общаться друг с другом и вести переговоры, — сказала Камар. — Мы хотим глубоко понять эти вещи».

Первоначальное исследование рассматривало набор ведущих моделей, включая GPT-4o, GPT-5 и Gemini-2.5-Flash, и выявило некоторые удивительные слабости. В частности, исследователи обнаружили несколько техник, которые бизнес-агенты могут использовать для манипулирования агентами-покупателями с целью приобретения их товаров. Исследователи заметили особое снижение эффективности, когда агенту-покупателю предоставлялось больше вариантов для выбора, что перегружало его «внимание».

«Мы хотим, чтобы эти агенты помогали нам обрабатывать множество вариантов, — говорит Камар. — И мы видим, что текущие модели на самом деле сильно перегружаются, когда вариантов становится слишком много».

Агенты также столкнулись с проблемами, когда их просили сотрудничать для достижения общей цели, по-видимому, не понимая, какую роль должен играть каждый агент в коллаборации. Производительность улучшалась, когда модели давали более явные инструкции о том, как сотрудничать, но исследователи все же сочли, что внутренние возможности моделей нуждаются в улучшении.

«Мы можем инструктировать модели — например, мы можем говорить им, шаг за шагом, — сказала Камар. — Но если мы по своей сути проверяем их способность к сотрудничеству, я бы ожидал, что эти модели будут иметь такие возможности по умолчанию».

Искусственный интеллект продолжает активно развиваться, и исследования, подобные этому, помогают выявить не только текущие возможности, но и «слепые зоны» ИИ, которые необходимо устранить перед массовым внедрением автономных агентов в повседневные задачи.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии