
面壁智能正式宣布推出旗下“小钢炮”系列的新成员——VoxCPM语音生成基座模型。该模型的参数量为0.5B,由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发,在合成语音的自然度、音色相似度及韵律表现力等方面均达到了当前的最优(SOTA)水平。目前,VoxCPM已在GitHub、HuggingFace等平台开源,向全球开发者开放。
据介绍,VoxCPM是一款端到端的扩散自回归语音生成模型,其设计目标是从输入文本直接合成高质量的连续语音表征,并且支持流式地实时输出生成音频片段。与当前CosyVoice、FireRedTTS及SparkTTS等普遍遵循将连续的语音信号转换为离散的声学词元(Speechtoken)序列进行处理的方法不同,VoxCPM采用融合层次化语言建模和局部扩散生成的端到端TTS方案。
在性能表现上,VoxCPM在Seed-TTS-EVAL等权威语音合成评测榜单中,相似度、词错误率等关键指标上均达到了业界SOTA水平。在单NVIDIARTX4090显卡上实现了RTF(Real-TimeFactor)≈0.17的高效推理速度,且理论上支持流式输出无限长度的音频。该模型通过融合层次化语言建模和局部扩散生成的连续表征端到端TTS方案,显著提升了语音生成的表现力、自然度、稳定性。
在实际应用中,VoxCPM能够根据对文本内容的理解,自主选择合适的声音、腔调、韵律风格生成音频。无论是模拟天气预报员字正腔圆的播报、英雄将领战前慷慨激昂的演讲,还是还原方言主播的特色腔调,VoxCPM都能通过调整韵律参数实现精准还原。特别是在中文语境下,VoxCPM还支持公式、符号音频合成,同时支持音素标记替换,实现自定义读音纠正等功能。
面壁智能表示,VoxCPM的推出,将为智能客服、有声读物、教育辅导、语音助手等多个领域带来新的技术解决方案,助力相关行业实现更自然、流畅的人机语音交互体验。随着模型的开源,也期待全球开发者能够基于VoxCPM开发出更多创新应用,推动语音生成技术的进一步发展。








