Стартап Decart представил Oasis 3 — фотореалистичную мировую модель для симуляции вождения
Стартап Decart в среду представил Oasis 3 — свою новейшую интерактивную мировую модель, способную в реальном времени генерировать фотореалистичные среды для вождения. Модель уже доступна через API.
Стартап изначально нацелен на компании, занимающиеся беспилотными автомобилями, которым необходимо масштабно симулировать редкие сценарии вождения. В планах — расширение на робототехнику и другие области физического ИИ. Однако основная ставка делается на разработчиков: предлагая доступ к API с первого дня, Decart пытается построить экосистему разработчиков вокруг мировых моделей, подобно тому, как OpenAI поступила с языковыми моделями.
«Это будет первая полезная мировая модель, поверх которой люди смогут программировать», — заявил TechCrunch сооснователь и генеральный директор Decart Дин Лейтерсдорф. «Я думаю, что вокруг этого возникнет целое сообщество разработчиков».
У стартапа уже есть сообщество из более чем 100 000 разработчиков, многие из которых создают продукты на основе его модели реального времени Lucy, в основном в сфере электронной коммерции и прямых трансляций. Oasis 3 основана на этой фундаментальной модели и представляет собой продвижение компании в область физического ИИ. Стоимость доступа составляет $0,02 за секунду (около 1,6 рубля), а корпоративное ценообразование зависит от вариантов использования, сообщили в Decart.
Decart действует на все более переполненном рынке мировых моделей. В прошлом году Google выпустила Genie 3 в режиме исследовательской предварительной версии, World Labs Фэй-Фэй Ли запустила Marble для коммерческого использования, а стартапы по генерации видео, такие как Luma и Runway, также превращают свои модели, понимающие физику, в мировые модели.

Oasis 3 от Decart генерирует фотореалистичные сценарии вождения, с которыми можно взаимодействовать в реальном времени.
Изображение: Decart
Релиз Oasis 3 состоялся через несколько недель после того, как двухлетний Decart привлек $300 млн (около 24 млрд рублей). По словам Лейтерсдорфа, это произошло из-за «огромного роста спроса на созданные нами модели» в электронной коммерции, прямых трансляциях и физическом ИИ. Раунд повысил оценку Decart почти до $4 млрд (около 320 млрд рублей) и привлек стратегических инвесторов, таких как Toyota, Adobe и eBay. Все эти компании являются потенциальными клиентами, говорит Лейтерсдорф. Nvidia, уже существующий инвестор, также приняла участие в раунде.
Преимущество Oasis 3 заключается в фотореалистичности моделей и возможности бесконечной генерации. Это стало возможным благодаря эффективности, обеспеченной другим основным продуктом компании: программным обеспечением DOS (Decart Optimization Stack), которое позволяет моделям эффективно работать на оборудовании Nvidia, Amazon и Google, делая их эксплуатацию гораздо дешевле, чем у конкурентов.
«Это построено на основе нашего стека реального времени, который мы оптимизируем вплоть до аппаратного обеспечения», — сказал Лейтерсдорф. «Благодаря такой вертикальной интеграции мы можем запускать эти модели более чем на порядок дешевле, чем кто-либо другой в отрасли».
По словам Лейтерсдорфа, модели стартапа настолько эффективны, что за все время своего существования он потратил «значительно меньше» $100 млн (около 8 млрд рублей).
Oasis 3 генерирует физически точные многокамерные среды (одна фронтальная и две боковые камеры) для обучения и тестирования систем. Вместо ограниченных демо-версий и исследовательских превью, Decart позволяет разработчикам генерировать сценарии бесконечно, что идеально подходит для разработчиков беспилотных автомобилей, стремящихся опробовать как можно больше граничных случаев.
По сравнению с другими моделями, которые пробовал журналист TechCrunch, такими как Google Genie 3 или World Labs Marble, Oasis 3 обеспечивает наиболее фотореалистичную среду по одному текстовому запросу. А возможность взаимодействовать с ней часами указывает на уровень эффективности, которого, возможно, не хватает конкурентам Decart.
Однако при длительной генерации мира модель значительно деградирует.
В ходе тестирования журналист обнаружил, что система может последовательно создавать сильную начальную сцену, соответствующую запросу, но тематическая целостность быстро ухудшается по мере перемещения по миру. Он задал генерацию улицы Нью-Йорка утром — модель сделала это красиво. Но по мере движения окружение стало меньше походить на Нью-Йорк и больше — на стандартный вид любого западного города.
При попытке развернуться и вернуться к исходному перекрестку он исчез, заменившись совершенно новой средой. Кроме того, управление не очень отзывчивое, и часто терялся контроль над движением автомобиля (недостаток, присущий и другим мировым моделям). Ощущение было меньше похоже на связную симуляцию и больше — на сноподобный, бессвязный поток сознания, который быстро становится бессмысленным.
Другая проблема, также замеченная в других мировых моделях, заключается в том, что автомобиль просто проезжает сквозь другие машины, что означает, что модель неправильно симулирует физику окружения. Лейтерсдорф называет это «крупной исследовательской проблемой, которую мы сейчас решаем», объясняя это тем, что «данных о хорошем вождении значительно больше, чем об авариях».
Сложность обеспечения согласованности физики отчасти связана с тем, как работает эта мировая модель. Oasis 3 является авторегрессионной, то есть генерирует один кадр за раз, оглядываясь на ранее сгенерированное, чтобы решить, что будет дальше. Это ключевая архитектурная особенность многих мировых моделей, требующая больших вычислительных затрат.
Для поддержания согласованности, по словам Лейтерсдорфа, команда Decart работает над увеличением длины памяти модели.
«Каждый генерируемый нами кадр состоит примерно из 8 000 токенов, — сказал он. — Генерация десятков кадров в секунду — это сотни тысяч токенов в секунду. Контекстное окно заполняется очень быстро. Мы исследуем, как сделать более длинный контекст для хранения миллионов токенов и как сжать память в меньшее количество токенов».
Лейтерсдорф считает, что проблема согласованности может быть частично решена в следующей версии модели, которая позволит пользователям начинать генерацию миров на основе видео окружения, а не изображения. Он признал, что область мировых моделей все еще находится на ранней стадии.
Тем не менее, основатель меньше сосредоточен на текущих ограничениях своей технологии, чем на том, что произойдет, когда разработчики получат к ней доступ.
«Это возвращает меня к ранним дням LLM, когда OpenAI изобрела API для моделей», — сказал он, указывая на появление сообщества разработчиков, которое продвинуло эту область, находя и создавая новые варианты использования.
«Когда мы поговорим снова через три месяца, мы скажем: «Вот 100 разработчиков, которые создали 100 различных приложений с Oasis, которые удивили всех нас», — сказал он.
* Meta, Facebook и Instagram запрещены в России.

0 комментариев