Алибаба представила модель для генерации видео по картинке и аудио

/ ТехнологииНовости / Технологии

Компания Alibaba Cloud официально представила новую мультимодальную модель для генерации видео под названием Tongyi Wanxiang Wan2.2-S2V и объявила о её открытом исходном коде.

Wan2.2-S2V значительно упрощает процесс создания видео. Достаточно предоставить одно статичное изображение и аудиодорожку, чтобы модель сгенерировала видео с цифровым человеком кинематографического качества — с естественной мимикой, точным совпадением артикуляции губ с аудио и плавными движениями тела.

Система поддерживает стабильную генерацию длинных видео продолжительностью в несколько минут. Движения не ограничиваются губами — модель анимирует жесты, выражения лица и позы.

Кроме того, в ходе обучения модель развила способность к междоменному обобщению и может естественным образом анимировать мультяшных персонажей, животных, аниме-героев и стилизованные художественные портреты, не ограничиваясь только реалистичными изображениями людей.

Будь то говорящее милое животное или поющий аниме-персонаж, Wan2.2-S2V точно воспроизводит эффект синхронизации звука и изображения.

Модель предлагает два варианта разрешения — 480p и 720p, что позволяет балансировать между эффективностью и качеством изображения. Решение подходит для создания коротких видео, цифровых людей и облегченных кинопроизводственных задач.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии