教育部、国家语委发布两项语言文字新规范规范AI语音与语料库发展

🤖 由文心大模型生成的文章摘要

近日，教育部、国家语言文字工作委员会联合发布《机器合成普通话水平测评等级标准及测评大纲》和《人工智能语料库基础术语》两项重要语言文字规范，旨在积极回应人工智能时代对语言文字应用的现实需求，补齐AI语音合成与语料库建设领域的标准空白，推动语言文字规范标准体系向数字化、智能化方向升级，为人工智能语言相关产业高质量发展划定清晰标杆。两项规范由教育部语言文字应用研究所（国家语委普通话与文字应用培训测试中心）组织研制，经国家语委语言文字规范（标准）审定委员会审定通过，目前已由语文出版社正式出版实施。

随着人工智能技术的快速普及，智能音箱、虚拟人、智能客服、导航系统、教育辅具等AI产品已深度融入社会生产生活，机器合成语音成为人与AI交互的核心载体，语料库则作为AI模型学习的“基础教材”，直接决定着AI语音的标准度与自然度。然而长期以来，机器合成普通话缺乏统一的等级评价标准，部分AI语音存在发音不准、断句混乱、语调生硬的“塑料感”，甚至出现念错字、混淆声调等问题——有网友分享，政务服务大厅的智能机器人曾将“智能机器人”念成“自燃机器人”，教辅机器人误将“杨花落尽子规啼”的“啼”读成“dì”，不仅影响用户体验，更可能误导低龄儿童和普通话学习者。与此同时，人工智能语料库领域缺乏统一的基础术语界定，语料来源不规范、标注标准混乱等问题突出，部分AI模型因学习了影视作品中不标准的发音，或贴合大众普遍的误读习惯，导致合成语音不符合普通话规范，制约了AI语言相关产业的规范化发展。

此次发布的《机器合成普通话水平测评等级标准及测评大纲》，首次为机器合成普通话建立了完整、可落地的国家级等级与测评体系，相当于给AI定制了专属的“普通话水平测试”。该规范明确将机器合成普通话划分为六级等级，对应清晰的分数门槛：一级（97分及以上）、二级（92-97分，不含97）、三级（87-92分，不含92）、四级（80-87分，不含87）、五级（70-80分，不含80）、六级（60-70分，不含70），覆盖从高标准专业级到基础可用级的全范围需求。配套的测评大纲充分贴合AI语音合成的技术特点与应用场景，设置了五大核心测评模块，总分100分，精准破解行业痛点：单音节字词（15分）重点测评声母、韵母、声调的标准度与汉字识读能力；双音节词语（10分）聚焦上声变调、“一”“不”变调、轻声、儿化等普通话核心发音规则；句子（40分）权重最高，覆盖多音字、数字符号、外文识读、分词处理等高频出错场景，同时考核语音标准度；句段（30分）侧重测评停连、重音、语调的自然度，解决AI语音“单个字准、连起来生硬”的通病；篇章（5分）综合测评整体表达与听感体验，适配全场景应用需求。该规范适用于所有机器合成语音的普通话测评，可直接用于AI语音技术研发、产品优化及应用评价，为行业提供了统一的质量衡量标准。

教育部、国家语委发布两项语言文字新规范规范AI语音与语料库发展

相关文章

Niantic正根据「Pokémon Go」玩家数据构建“地理空间”AI模型

DeepSeek表明人工智能权力中心可能会从美国转移

AI爆发背景下智能家居产业迎标准化纲领 2030年将实现全品类全场景标准覆盖

高通：生成式人工智能与汽车创新的结合

国家”两重”清单再发力：6065亿特别国债加速投向AI等战略领域

AMD斥资6.65亿美元收购芬兰初创公司Silo AI，旨在与英伟达竞争

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆

AI应用推荐

热门

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

友情链接

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆