
8 月 26 日,阿里开源全新多模态视频生成模型通义万相 Wan2.2-S2V。
官方表示,通过 Wan2.2-S2V,用户仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
目前,Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。该模型还支持文本控制,输入 Prompt(提示词)后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。
据介绍,Wan2.2-S2V 采用了多项创新技术。其中,模型基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成。在模型训练上,团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。
实测数据显示,Wan2.2-S2V 在 FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。
目前,用户可在 HuggingFace 和魔搭社区下载模型,或在通义万相官网直接体验。
|