小米公司正式宣布发布并全量开源其自研的声音理解大模型MiDashengLM-7B。这一举措在人工智能领域引发了广泛关注,该模型凭借卓越的性能表现,在声音理解方面树立了新的行业标杆。
小米官方数据显示,MiDashengLM-7B在声音理解性能上极为出色,在22个公开评测集中成功刷新了多模态大模型的最好成绩(SOTA)。其单样本推理的首Token延迟(TTFT)仅为业界先进模型的1/4,这意味着在处理单个样本时,MiDashengLM-7B能够以更快的速度给出初始响应,大大提升了用户交互的实时性。同时,在同等显存条件下,该模型的数据吞吐效率是业界先进模型的20倍以上,显著增强了系统在并发处理多个任务时的能力,能够同时高效处理更多的音频数据请求。
MiDashengLM-7B基于XiaomiDasheng作为音频编码器,以及Qwen2.5-Omni-7BThinker作为自回归解码器,并通过创新的通用音频描述训练策略,达成了对语音、环境声音以及音乐的统一理解。这一创新策略使得模型不再局限于单一类型的声音识别,而是能够综合分析多种声音信号,从而更全面、准确地理解声音背后的含义。
回顾2024年,小米发布的XiaomiDasheng声音基座模型在国际上首次突破AudioSet50+mAP,并在HEARBenchmark环境声、语音、音乐三大领域建立起领先优势,这一优势一直延续至今。XiaomiDasheng在小米的智能家居和汽车座舱等实际场景中已拥有超过30项落地应用,如行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联IoT控制能力,以及小米YU7上搭载的增强哨兵模式划车检测等,这些应用的背后都离不开XiaomiDasheng作为核心算法的赋能。而MiDashengLM-7B正是以XiaomiDasheng音频编码器为核心组件,是XiaomiDasheng系列模型的重要升级。
值得一提的是,MiDashengLM的训练数据全部由公开数据构成,并且模型以宽松的ApacheLicense2.0发布,这意味着无论是学术研究还是商业应用,开发者都能够自由地使用该模型,极大地促进了相关领域的技术交流与创新发展。与部分未公开训练数据细节的模型不同,MiDashengLM完整公开了77个数据源的详细配比,并在技术报告中详细阐述了从音频编码器预训练到指令微调的全流程,展现出小米在技术上的开放与透明。
作为小米“人车家全生态”战略的关键技术,MiDashengLM凭借统一理解语音、环境声与音乐的跨领域能力,不仅能够精准识别用户周围发生的事件,还能深入分析其中隐藏的含义,显著提高了用户场景理解的泛化性。例如,基于MiDashengLM的模型可以通过自然语言与用户交互,为用户提供更加人性化的沟通和反馈。在用户练习唱歌或练习外语时,模型能够提供发音反馈并制定针对性的提升方案;在用户驾驶车辆时,也能实时解答用户关于环境声音的提问。