
近期,人工智能领域再度迎来创新热潮,多家公司接连发布新的AI产品与技术,为行业发展注入强劲动力。
9月14日,Stability AI正式推出企业级音频生成模型StableAudio2.5。该模型在音频细节和生成速度方面实现显著提升,号称能够“仅用2秒钟即可创建3分钟音频曲目”。其核心改进聚焦于音乐生成能力,生成结果更贴合真实编曲逻辑,可呈现完整的前奏、发展与结尾等多段式结构。同时,新版模型对提示词的理解更为精准,在情绪描述和音乐风格词汇的把握上,能给出更符合预期的响应。生成速度的显著提升,得益于研发团队提出的后训练方法ARC。这一技术通过结合相对式对抗训练与对比判别器,在保证音轨质量的同时,大幅降低GPU推理耗时。此外,StableAudio2.5还新增音频修补功能,用户导入自己的音频文件并指定“延展位置”后,模型可依据音频前后内容及整体曲风,一键“延长”音频,为剪辑等场景提供便利。目前,该模型已可通过StableAudio官网直接试用,也支持本地化部署。不过,官方规定用户上传的音频文件不得包含受版权保护的内容,网站将利用自带的内容识别系统进行检测,以确保不侵犯他人版权。
百度也在模型领域发力,推出开源权重“思考”模型ERNIE-4.5。该模型总参数量达210亿,在性能表现上十分亮眼。据百度相关负责人介绍,ERNIE-4.5在多模态理解能力方面取得显著进步,能够进行图形推理、图表分析,还具备理解漫画、歌曲、电影等多模态内容的能力。作为深度思考模型,它在性能上对标DeepSeek-R1,拥有“长思维链”,尤其擅长中文知识问答、文学创作、逻辑推理等任务。同时,该模型增加了多模态能力和多工具调用功能,不仅能理解和生成图片,还可调用工具生成代码和图表等,并且大幅降低了推理成本。
阿里巴巴通义千问团队同样成果丰硕,推出“Qwen3-Next”系列模型,并开源前沿混合专家模型Qwen-Next-80B-A3B等。Qwen3-Next是Qwen系列的最新成员,基于Qwen3架构改进优化。其模型总参数约800亿(80B),但推理时仅启用约3B参数(active参数)参与,大幅减少推理时的计算资源消耗,同时保留强大的表达能力。该模型引入混合注意力机制,如“线性注意力+门控注意力”的混合设计,提升了长输入(longcontext)下的处理效率。
在输入32,000token或更高时,“prefill”阶段比Qwen3-32B快约10.6倍,decode阶段快约10倍。通过架构设计与活跃参数控制,Qwen3-Next的训练成本低于Qwen3-32B,更具成本效益。并且,它支持思考模式与非思考模式,用户可依据任务复杂性进行选择,以平衡速度与准确性。在性能表现上,Qwen3-Next在长上下文情景下,输出第一个token的速度以及decode阶段速度均有大幅提升,在某些任务中的评测结果已等同甚至优于Qwen3-32B。








