面壁智能联合清华发布语音生成基座模型VoxCPM

🤖 由文心大模型生成的文章摘要

面壁智能正式宣布推出旗下“小钢炮”系列的新成员——VoxCPM语音生成基座模型。该模型的参数量为0.5B，由面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）联合研发，在合成语音的自然度、音色相似度及韵律表现力等方面均达到了当前的最优（SOTA）水平。目前，VoxCPM已在GitHub、HuggingFace等平台开源，向全球开发者开放。

据介绍，VoxCPM是一款端到端的扩散自回归语音生成模型，其设计目标是从输入文本直接合成高质量的连续语音表征，并且支持流式地实时输出生成音频片段。与当前CosyVoice、FireRedTTS及SparkTTS等普遍遵循将连续的语音信号转换为离散的声学词元（Speechtoken）序列进行处理的方法不同，VoxCPM采用融合层次化语言建模和局部扩散生成的端到端TTS方案。

在性能表现上，VoxCPM在Seed-TTS-EVAL等权威语音合成评测榜单中，相似度、词错误率等关键指标上均达到了业界SOTA水平。在单NVIDIARTX4090显卡上实现了RTF（Real-TimeFactor）≈0.17的高效推理速度，且理论上支持流式输出无限长度的音频。该模型通过融合层次化语言建模和局部扩散生成的连续表征端到端TTS方案，显著提升了语音生成的表现力、自然度、稳定性。

在实际应用中，VoxCPM能够根据对文本内容的理解，自主选择合适的声音、腔调、韵律风格生成音频。无论是模拟天气预报员字正腔圆的播报、英雄将领战前慷慨激昂的演讲，还是还原方言主播的特色腔调，VoxCPM都能通过调整韵律参数实现精准还原。特别是在中文语境下，VoxCPM还支持公式、符号音频合成，同时支持音素标记替换，实现自定义读音纠正等功能。

面壁智能表示，VoxCPM的推出，将为智能客服、有声读物、教育辅导、语音助手等多个领域带来新的技术解决方案，助力相关行业实现更自然、流畅的人机语音交互体验。随着模型的开源，也期待全球开发者能够基于VoxCPM开发出更多创新应用，推动语音生成技术的进一步发展。

「93913原创内容，转载请注明出处」

相关文章

全球首个情感大模型Echo-N1发布小参数承载”大共情”

淘宝全模态大模型TStars-Omni亮相CNCC2025，AI重构电商生态

阿里拆分人工智能团队，以增强消费者和企业关注度

IBM和NASA发布“Hugging Face”开源AI模型，用于天气和气候应用

生数科技发布高可控视频大模型Vidu Q1

法国人工智能初创公司Mistral AI计划按100亿美元估值推动新一轮融资

推荐

新帅定调产品战略：苹果砍停Vision Pro迭代项目，全面转向大众向智能眼镜研发

中法文化之春二十周年重磅项目落地武汉，《消失的法老 2》沉浸式VR体验对外开放

中科创达确认AI眼镜为核心产品线，CES亮相TurboX AI眼镜落地全栈自研技术

脑机交互落地VR外设！苏格兰厂商推出PiEEG XR配件，靠脑电波操控Quest虚拟形象

AI应用推荐

热门

新帅定调产品战略：苹果砍停Vision Pro迭代项目，全面转向大众向智能眼镜研发

中法文化之春二十周年重磅项目落地武汉，《消失的法老 2》沉浸式VR体验对外开放

友情链接

推荐

新帅定调产品战略：苹果砍停Vision Pro迭代项目，全面转向大众向智能眼镜研发

中法文化之春二十周年重磅项目落地武汉，《消失的法老 2》沉浸式VR体验对外开放

中科创达确认AI眼镜为核心产品线，CES亮相TurboX AI眼镜落地全栈自研技术

脑机交互落地VR外设！苏格兰厂商推出PiEEG XR配件，靠脑电波操控Quest虚拟形象