腾讯混元图像3.0登顶LMArena全球榜单,包揽两项国际顶级生图荣誉

🤖 由 文心大模型 生成的文章摘要

10月5日,国际大模型竞技场LMArena发布最新文生图评测报告,腾讯9月28日开源的混元图像3.0在全球26款主流模型中斩获综合排名第一,同时将“最佳综合文生图模型”与“最佳开源文生图模型”两项顶级荣誉收入囊中。这一结果来自加州大学伯克利分校打造的万人级盲测体系——平台通过匿名展示模型输出、由用户直接投票的方式生成榜单,因贴近真实使用场景被业界视为“生图模型风向标”,此次登顶标志着中国开源AI模型正式跻身全球生图技术第一梯队。​

作为全球首个开源商用级原生多模态生图模型,混元图像3.0的核心竞争力源于架构革新与数据积淀。其采用MoE混合专家+Transfusion统一框架,总参数量达80B,通过64个专家模块动态调度,推理时仅激活13B参数即可实现高效运算。与传统DiT架构不同,该模型创新性引入“广义因果注意力机制”,让文本tokens遵循自回归逻辑,图像tokens则可捕捉全局空间依赖,实现文本与图像模态的深度融合。​

这种“自带大脑”的设计赋予模型三大核心能力:​

世界知识推理:输入“月全食四格科普漫画”,无需逐帧描述即可生成符合天文原理的序列图像;​

超长文本理解:支持千字级指令解析,能精准还原“美拉德色系穿搭海报+单品拆解”等复杂需求;​

精确文字渲染:可生成多语言混排的海报标题、数据标注,解决开源模型“画文难”的行业痛点。​

在LMArena采用的SSAE结构化评估中,其综合准确率达87.4%,超越DALL-E3(84.6%)、Midjourneyv6(83.9%)等闭源标杆,在文字生成、场景还原两项指标上领先幅度超5%。​

此次发布的混元图像3.0不仅在技术上破局,更以开源策略改写行业格局。模型已在Github、HuggingFace全量开放权重,支持个人与企业免费商用,成为目前唯一能对标闭源模型的开源方案。其160GB完整权重可适配3×80GBGPU配置,搭配flash-attn优化组件后推理速度提升3倍,兼顾专业创作与轻量化应用需求。

「93913原创内容,转载请注明出处」