长沙站|武汉站|成都站|南京站|杭州站|攀枝花|苏州站
无锡站|常州站|重庆站|长春站|东莞站|佛山站|广州站
桂林站|贵阳站|惠州站|合肥站|江门站|嘉兴站|金华站
昆明站|柳州站|宁波站|南昌站|南宁站|青岛站|上海站
您当前的位置:首页 > 新闻资讯 > 快讯
阿里开源视频生成模型 Wan2.2-S2V
来源:一起淘      时间:2025-08-27      点击:

8 月 26 日,阿里开源全新多模态视频生成模型通义万相 Wan2.2-S2V。

官方表示,通过 Wan2.2-S2V,用户仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

目前,Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。该模型还支持文本控制,输入 Prompt(提示词)后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。

据介绍,Wan2.2-S2V 采用了多项创新技术。其中,模型基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成。在模型训练上,团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。

实测数据显示,Wan2.2-S2V 在 FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。

目前,用户可在 HuggingFace 和魔搭社区下载模型,或在通义万相官网直接体验。

顶一下
回首页
回首页

一起淘最新邀请码、知买推客,注册邀请码免费发放 一起淘最新邀请码、知买推客,注册邀请码免费发放
来源:本地生活服务      点击:
2025-05-07 17:05:27