Patronus AI привлек $50 млн на создание «цифровых миров» для проверки ИИ-агентов

Стартап Patronus AI, основанный в 2023 году бывшими исследователями Meta AI Анандом Каннаппаном и Ребеккой Цянь, привлек $50 млн (около 4 млрд рублей) для создания «цифровых миров», предназначенных для стресс-тестирования ИИ-агентов.

ИИ-агенты становятся все более сложными: они эволюционируют от простых ответов на вопросы до самостоятельного выполнения многошаговых комплексных задач. Однако прежде чем доверить им бронирование поездок или проведение финансового анализа, разработчики моделей и стартапы хотят быть уверены в их надежности в самых разных сценариях.

Лаборатории ИИ часто используют бенчмарки для демонстрации возможностей своих моделей, но высокий балл, даже в ориентированном на агентов тесте, не гарантирует, что ИИ сможет корректно выполнять сложные реальные задачи. Patronus AI помогает решить эту проблему, создавая симулированные цифровые среды для оценки производительности агентов.

Сан-Францисский стартап, судя по всему, решает крайне важную задачу. По словам Гленна Соломона, управляющего директора Notable Capital, практически все ведущие ИИ-лаборатории и множество emerging-стартапов уже стали клиентами компании, а спрос на ее симулированные среды практически неутолим.

Выручка Patronus за последний год выросла в 15 раз, что вызвало значительный интерес инвесторов. В четверг компания объявила о закрытии раунда финансирования серии B на $50 млн (около 4 млрд рублей) под руководством Greenfield Partners при участии Notable Capital, Lightspeed, Datadog и Samsung. Этот раунд доводит общий объем привлеченных средств компании до $70 млн (около 5,6 млрд рублей).

Patronus использует так называемые «модели цифрового мира» для создания копий веб-сайтов и внутренних систем. В этих средах агенты проходят стресс-тесты после обучения с подкреплением, которое итеративно поощряет успешное выполнение задач и штрафует за ошибки.

Лаборатории ИИ видят большую ценность в этих цифровых симуляциях, поскольку они позволяют агентам опробовать различные, иногда непредсказуемые сценарии. Компания сравнивает свой подход с тем, как Waymo обучала беспилотные автомобили, сначала создавая синтетические миры для тестирования машин в редких опасных ситуациях, таких как сильная непогода или ребенок, выбегающий за мячом.

Отличие ИИ-агентов в том, что они склонны искать shortcuts (обходные пути), что приводит к некорректному выполнению задач. «Patronus очень хорош в выявлении таких "хаков" и следит за тем, чтобы модели несли ответственность», — отметил Соломон.

В настоящее время Patronus предоставляет свои симулированные цифровые миры для сфер разработки ПО и финансов, но, по словам Каннаппана, это только начало.

«Сегодня мы сосредоточены на верифицируемых задачах, то есть на тех, которые можно немедленно проверить. Но есть еще множество областей, которые либо совсем не поддаются верификации, либо проверяются с большим трудом», — сказал он.

Тот факт, что эти процессы верифицируемы, не означает их простоты. «Мы хотим создать среду, в которой агент может работать 10 часов, 10 дней или 10 недель», — пояснил Каннаппан.

Что касается конкурентов, Patronus считает, что в первую очередь соперничает с внутренними командами ИИ-лабораторий, которые уже созданы для оценки поведения агентов. В то время как компании, работающие с человеческими данными, такие как Mercor и Surge, помогают разработчикам моделей с обучением с подкреплением, Patronus действует иначе, оценивая поведение агентов без какого-либо участия человека.

Цены сконвертированы по курсу 1 USD = 80 руб. Реальные цены могут отличаться.

* Meta, Facebook и Instagram запрещены в России.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии