Алибаба представила модель для генерации видео по картинке и аудио

Компания Alibaba Cloud официально представила новую мультимодальную модель для генерации видео под названием Tongyi Wanxiang Wan2.2-S2V и объявила о её открытом исходном коде.

Wan2.2-S2V значительно упрощает процесс создания видео. Достаточно предоставить одно статичное изображение и аудиодорожку, чтобы модель сгенерировала видео с цифровым человеком кинематографического качества — с естественной мимикой, точным совпадением артикуляции губ с аудио и плавными движениями тела.

Система поддерживает стабильную генерацию длинных видео продолжительностью в несколько минут. Движения не ограничиваются губами — модель анимирует жесты, выражения лица и позы.

Кроме того, в ходе обучения модель развила способность к междоменному обобщению и может естественным образом анимировать мультяшных персонажей, животных, аниме-героев и стилизованные художественные портреты, не ограничиваясь только реалистичными изображениями людей.

Будь то говорящее милое животное или поющий аниме-персонаж, Wan2.2-S2V точно воспроизводит эффект синхронизации звука и изображения.

Модель предлагает два варианта разрешения — 480p и 720p, что позволяет балансировать между эффективностью и качеством изображения. Решение подходит для создания коротких видео, цифровых людей и облегченных кинопроизводственных задач.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии