
9 月 18 日,面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。
- 性能表现:RTF ≈ 0.17,支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异,词错误率极低,音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度,满足高质量实时交互需求。
- 听感体验:情绪、口音、韵律俱佳 模型可根据文本内容自动选择合适的声音风格,生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻,极少样本即可「原音重现」,甚至能朗读数学公式与符号。
- 技术架构:融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构,融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT,通过 VAE 编解码器实现语音连续特征的高效生成与重构。
目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源,开发者可自由下载与体验,还可通过线上 PlayGround 快速试用,音频样例页面也已同步上线。
|