Alibaba открыла исходный код модели Tongyi Wanxiang 2.2 для генерации видео кинематографического качества
Alibaba Cloud объявила о выходе в открытый доступ модели Tongyi Wanxiang 2.2 (通义万相2.2).
Главной особенностью новой версии стала возможность генерации видео с качеством, сопоставимым с профессиональными кинопроизводством. Модель способна создавать 5-секундные ролики в высоком разрешении.
«Эти 5 секунд видео — не обычный контент. В обработке света, цвета, композиции и даже микровыражений лиц модель достигает уровня киноиндустрии»
В рамках открытого доступа выпущены три варианта модели:
- Текст-в-видео (Wan2.2-T2V-A14B)
- Изображение-в-видео (Wan2.2-I2V-A14B)
- Универсальная генерация видео (Wan2.2-TI2V-5B)
Первые две модели используют инновационную архитектуру MoE с общим числом параметров 27 миллиардов, из которых активируются 14 миллиардов. Система разделена на «экспертов» по высокому и низкому уровню шума, что позволяет экономить до 50% вычислительных ресурсов без потери качества.
Особый интерес представляет «система кинематографической эстетики», которая действует как виртуальный режиссер, управляя визуальными элементами — от напряженных экшен-сцен до романтических кадров.
Этот шаг Alibaba открывает новые возможности для создателей контента, разработчиков и обычных пользователей, позволяя им производить видео профессионального уровня.
Интересный факт: В 2024 году рынок генеративного ИИ для видео оценивался в $1.2 млрд (~96 млрд руб.), а к 2027 году ожидается его рост до $4.5 млрд (~360 млрд руб.). Технологии вроде Tongyi Wanxiang могут значительно ускорить этот процесс.
0 комментариев