Runway выпустила первую мировую модель ИИ и добавила звук в Gen 4.5
Компания Runway, известная своими моделями для генерации изображений и видео, вступила в гонку по созданию «мировых моделей» (world models), представив свою первую разработку под названием GWM-1. Как заявили в компании, эта модель работает за счёт предсказания кадров, создавая симуляцию с пониманием физики и того, как мир ведёт себя с течением времени.
Мировая модель — это система искусственного интеллекта, которая обучается внутренней симуляции того, как устроен мир, что позволяет ей рассуждать, планировать и действовать без необходимости обучения на каждом возможном сценарии из реальной жизни.
Runway, которая в начале декабря выпустила видеомодель Gen 4.5, опередившую Google и OpenAI в рейтинге Video Arena, заявляет, что её мировая модель GWM-1 является более «универсальной», чем Genie-3 от Google и другие аналоги. Компания позиционирует её как инструмент для создания симуляций, которые можно использовать для обучения агентов в различных областях, таких как робототехника и науки о жизни.
«Чтобы построить мировую модель, нам сначала нужно было построить действительно отличную видеомодель. Мы считаем, что правильный путь к созданию мировой модели — это обучение моделей напрямую предсказывать пиксели. При достаточном масштабе и с правильными данными можно построить модель, которая имеет достаточное понимание того, как устроен мир», — заявил технический директор Runway Анастасис Германидис во время прямой трансляции.
Runway представила три специализированных варианта новой мировой модели: GWM-Worlds, GWM-Robotics и GWM-Avatars.
GWM-Worlds — это приложение, позволяющее создавать интерактивные проекты. Пользователи могут задать сцену с помощью текстового запроса или изображения, и по мере исследования пространства модель будет генерировать мир с учётом геометрии, физики и освещения. Симуляция работает с частотой 24 кадра в секунду и разрешением 720p. По словам Runway, Worlds может быть полезен не только для игр, но и для обучения агентов навигации и поведению в физическом мире.
Цель GWM-Robotics — создание синтетических данных, обогащённых новыми параметрами, такими как изменение погодных условий или появление препятствий. Этот подход также может выявить, когда и как роботы могут нарушать заданные политики и инструкции в различных сценариях.
В рамках GWM-Avatars Runway создаёт реалистичные аватары для симуляции человеческого поведения. Технически Worlds, Robotics и Avatars — это отдельные модели, но в конечном итоге компания планирует объединить их в одну.
Помимо мировой модели, Runway обновила свою базовую модель Gen 4.5. Новое обновление добавляет в неё возможности генерации собственного звука и создания длинных многосценарных видео. Пользователи смогут генерировать минутные ролики с постоянством персонажей, диалогами, фоновым звуком и сложными ракурсами, а также редактировать существующее аудио и видео любой длины.
Это обновление приближает Runway к возможностям конкурента Kling, который также представил в этом месяце модель с одновременной генерацией звука и видео, и сигнализирует о переходе видеомоделей из стадии прототипов в готовые к производству инструменты. Обновлённая Gen 4.5 доступна всем пользователям платных тарифов Runway.
Компания заявила, что сделает GWM-Robotics доступной через SDK и ведёт активные переговоры с рядом фирм и предприятий в области робототехники о её использовании, а также о применении GWM-Avatars.
Интересный факт: Концепция «мировых моделей» в ИИ восходит к идеям, высказанным ещё в 2018 году исследователями DeepMind. Они предположили, что для достижения истинного интеллекта агенту необходимо построить внутреннюю, сжатую модель окружающего мира, чтобы предсказывать последствия своих действий. Сегодня эта идея реализуется не только в видеогенерации, но и в разработке автономных роботов и систем принятия решений.









0 комментариев