小红书智创音频发布FireRedTTS – 2:攻克对话合成痛点,技术实力领跑行业

🤖 由 文心大模型 生成的文章摘要

小红书智创音频技术团队正式对外发布新一代对话合成模型——FireRedTTS-2。这款全新模型的推出,不仅是团队在音频技术领域的又一次重要突破,更针对当前对话合成领域普遍存在的灵活性差、发音错误多等核心痛点,给出了极具创新性的解决方案,为行业发展注入新的活力。​

在当前的对话合成技术应用场景中,诸多方案面临着难以忽视的问题。一方面,灵活性不足成为制约技术落地的关键瓶颈。传统模型在应对不同场景、不同风格的语音合成需求时,往往需要进行大量的参数调整和模型适配,不仅耗时耗力,还难以快速响应多样化的用户需求。比如在电商直播场景中,主播可能需要时而亲切活泼、时而专业严谨的语音风格,传统模型很难在这两种风格之间实现无缝切换,导致用户体验大打折扣。另一方面,发音错误频发的问题也严重影响着合成语音的质量。无论是生僻字、多音字的发音偏差,还是特定领域专业术语的不准确朗读,都让合成语音显得不够自然、专业,难以满足教育、医疗、金融等对语音准确性要求极高的领域需求。​

为攻克这些痛点,小红书智创音频技术团队进行了大量的研发与探索,最终通过两大核心技术升级,实现了FireRedTTS-2合成效果的跨越式提升。首先,团队对离散语音编码器进行了全面升级。新一代的离散语音编码器能够更精准地捕捉语音的细微特征,包括语调、语气、节奏等,将语音信息转化为更丰富、更细腻的离散表征。这一升级使得模型在处理不同风格、不同情感的语音合成任务时,能够更好地还原真实人类的语音特点,极大地提升了合成语音的自然度和灵活性。例如,在合成故事朗读语音时,模型能够根据故事情节的发展,自动调整语调的高低起伏和语速的快慢,让听众仿佛置身于真实的故事场景中。​

其次,文本语音合成模型的优化也是FireRedTTS-2的一大亮点。团队针对文本处理环节进行了深度优化,引入了更先进的文本分析算法,能够更准确地理解文本的语义、语法结构以及多音字、生僻字的正确发音规则。同时,模型还结合了海量的语音数据进行训练,不断提升对不同领域专业术语的发音准确性。在实际测试中,FireRedTTS-2在处理包含大量专业术语的科技文献朗读任务时,发音准确率较传统模型提升了超过20%,有效解决了传统模型发音错误多的问题。​

凭借着这两大核心技术升级,FireRedTTS-2在多项主客观测评中均展现出行业领先的水平。在客观测评方面,模型在语音自然度、发音准确率、语速稳定性等关键指标上,均大幅超越行业平均水平,部分指标甚至达到了当前行业的最高标准。其中,语音自然度得分较上一代模型提升了15%,发音准确率更是高达98.5%,几乎可以媲美专业播音员的发音水平。在主观测评中,团队邀请了不同年龄段、不同职业背景的用户对模型合成的语音进行评价,结果显示,超过90%的用户认为FireRedTTS-2合成的语音在自然度和可听性上,与人类真实语音几乎没有差异,在处理多样化语音需求时的表现也得到了用户的广泛认可。

「93913原创内容,转载请注明出处」