阿里开源视频生成模型 Wan2.2-S2V--一起淘

阿里开源视频生成模型 Wan2.2-S2V

来源：一起淘时间：2025-08-27 点击：

8 月 26 日，阿里开源全新多模态视频生成模型通义万相 Wan2.2-S2V。

官方表示，通过 Wan2.2-S2V，用户仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

目前，Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片，并支持肖像、半身以及全身等任意画幅，上传一段音频后，模型就能让图片中的主体形象完成说话、唱歌和表演等动作。该模型还支持文本控制，输入 Prompt（提示词）后还可对视频画面进行控制，让视频主体的运动和背景的变化更丰富。

据介绍，Wan2.2-S2V 采用了多项创新技术。其中，模型基于通义万相视频生成基础模型能力，融合了文本引导的全局运动控制和音频驱动的细粒度局部运动，实现了复杂场景的音频驱动视频生成。在模型训练上，团队构建了超 60 万个片段的音视频数据集，通过混合并行训练进行全参数化训练，充分挖掘了模型的性能。

实测数据显示，Wan2.2-S2V 在 FID（视频质量，越低越好）、EFID（表情真实度，越低越好）、CSIM（身份一致性，越高越好）等核心指标上取得了同类模型最好的成绩。

目前，用户可在 HuggingFace 和魔搭社区下载模型，或在通义万相官网直接体验。

省妞、一起淘最新邀请码、知买推客，注册邀请码免费中
来源：本地生活服务点击：
2025-05-07 17:05:27

省妞邀请码
2025AB
一起淘最新邀请码
6XE5ybeJU8cOqyQ6X4z