Алибаба представила модель для генерации видео по картинке и аудио
Компания Alibaba Cloud официально представила новую мультимодальную модель для генерации видео под названием Tongyi Wanxiang Wan2.2-S2V и объявила о её открытом исходном коде.
Wan2.2-S2V значительно упрощает процесс создания видео. Достаточно предоставить одно статичное изображение и аудиодорожку, чтобы модель сгенерировала видео с цифровым человеком кинематографического качества — с естественной мимикой, точным совпадением артикуляции губ с аудио и плавными движениями тела.
Система поддерживает стабильную генерацию длинных видео продолжительностью в несколько минут. Движения не ограничиваются губами — модель анимирует жесты, выражения лица и позы.
Кроме того, в ходе обучения модель развила способность к междоменному обобщению и может естественным образом анимировать мультяшных персонажей, животных, аниме-героев и стилизованные художественные портреты, не ограничиваясь только реалистичными изображениями людей.
Будь то говорящее милое животное или поющий аниме-персонаж, Wan2.2-S2V точно воспроизводит эффект синхронизации звука и изображения.
Модель предлагает два варианта разрешения — 480p и 720p, что позволяет балансировать между эффективностью и качеством изображения. Решение подходит для создания коротких видео, цифровых людей и облегченных кинопроизводственных задач.
0 комментариев