
苹果公司近日通过一篇核心成员以华人为主的预印本论文,披露了其在多模态AI领域的重大进展——代号为Manzano的新型图像模型研发项目。这款模型以创新性混合架构打破技术壁垒,首次在单一系统中实现图像理解与生成能力的高效融合,其性能在内部测试中已可媲美OpenAI GPT-4o与谷歌Gemini2.5 Flash等行业标杆。
长期以来,图像理解与生成的“任务冲突”是AI领域的核心难题。苹果在论文中指出,现有模型普遍面临表征体系的根本性矛盾:连续数据流能精准捕捉图像细节,更适合文档解读、图表分析等理解任务;而离散符号系统则便于进行创造性生成,但二者采用独立工具链时易引发逻辑冲突,导致在文字密集型场景中表现拉胯。
Manzano的革命性解决方案在于混合图像分词器的设计:通过单一视觉Transformer主干搭配双适配器结构,同步输出两类互补标记——连续浮点标记用于深度理解,离散分类标记支撑创意生成。这种共享编码器架构使两种表征处于统一语义空间,彻底改变了传统“双分词器”设计的参数冗余问题,经消融实验验证,任务冲突率较现有方案降低60%以上。
Manzano采用模块化三段式架构,实现语义推理与像素生成的解耦优化:
混合视觉分词器:通过3×3空间压缩层与量化模块,将图像转化为双类型标记,兼顾理解精度与生成效率;
统一语言模型:基于自回归LLM构建,可同时处理文本与图像标记,支持跨模态推理;
可扩展图像解码器:提供9亿、17.5亿、35.2亿三种参数版本,覆盖256至2048像素全分辨率输出。
训练过程采用三阶段递进策略:先在33亿对图文样本(含23亿图像-文本对与10亿文本-图像对)中完成基础训练,再通过DALL-E3、ShareGPT-4o等合成数据进行优化,最终以指令微调提升实用能力,累计处理标记量达1.6万亿。这种数据策略使模型展现出极强的扩展性——30亿参数版本在ScienceQA等基准测试中,较最小模型得分提升超10分,且与专业系统的差距缩小至1分以内。








