
2026年1月,Meta新成立的超级智能实验室(MSL)宣布已向内部完成两款核心AI模型的交付工作,分别为专攻文本处理的Avocado模型与聚焦图像/视频生成的Mango多模态模型。据Meta首席技术官安德鲁·博斯沃思透露,两款模型表现“非常出色”,预计将于2026年第一季度正式对外发布,此举标志着Meta在生成式AI领域的战略布局全面提速,同时开启了从开源生态向闭源商业化转型的关键进程。
作为Llama系列模型的继任者,Avocado文本模型被定位为Meta下一代核心AI旗舰产品,彻底摒弃前代开源模式,转向闭源商业化路径,性能直接对标GPT-5与Gemini 3 Ultra。其核心突破在于具备“世界模型”能力,可在信息不完整的场景下自主推断用户意图与行为路径,颠覆了传统AI依赖预设规则的运行逻辑。在广告场景中,这一能力将重构Facebook与WhatsApp的投放体系——从广告主主动设定目标人群,转变为系统通过深度解析素材的语义、情绪与场景,自主判断高转化潜力用户,大幅弱化传统兴趣标签的权重。内部测试数据显示,Avocado在复杂任务规划中的准确率较Llama 4提升40%,代码生成效率提高35%,已初步具备“数字员工”级别的自主执行能力,将同步赋能广告优化、AI助手、代码开发等多元场景。
专攻图像与视频生成的Mango模型,则致力于实现从“玩具级工具”到“专业级生产系统”的跨越,核心优势集中在画质、效率与交互体验三大维度。该模型支持生成4K分辨率、60帧/秒的视频内容,达到专业影视制作标准,同时渲染效率较传统AI视频工具提升3倍,可大幅压缩内容制作周期。在交互层面,Mango降低了专业创作门槛,支持语音指令与实时调整功能,用户无需复杂提示词即可修改场景、角色动作及光影效果。更值得关注的是,Mango将与Meta的VR生态深度协同,搭配Quest头显使用时,用户可在虚拟空间搭建场景、设定角色,通过语音指令实时生成堪比《阿凡达》的虚拟影像内容,真正实现沉浸式“自导自演”。其原生多模态设计通过早期融合技术统一处理文本、图像与视频数据,让跨模态内容生成更自然流畅。
两款模型的落地背后,是Meta巨额的算力基建投入作为支撑。公司2025年资本开支已提升至700-720亿美元,重点投向AI算力设施,首个Prometheus超级集群(1GW)将于2026年上线,搭载约130万块NVIDIA H100 GPU,提供超过2艾克萨的混合精度算力,同时首款自研3纳米AI训练芯片也在测试中,能效比传统GPU提升超50%,为模型的训练与推理提供底层保障。技术架构上,两款模型延续Llama 4的混合专家(MoE)架构,总参数量或突破2万亿级,通过动态路由机制实现高效推理,同时上下文窗口长度有望超越1000万tokens,可处理约1.5万页文本或20小时视频内容,解决传统大模型的“短视”问题。








