Meta多模态AI生态再升级：SAM3系列引领技术突破，音乐AI探索合法新路径

🤖 由文心大模型生成的文章摘要

Meta在多模态人工智能领域集中释放重磅成果，不仅推出第三代“分割一切”模型SAM3及3D重建专用模型SAM3D，更带来支持1600余种语言的语音转文本技术与概念级图像编辑功能。与此同时，Meta宣布与华纳音乐集团达成战略合作，共同开发负责任的音乐AI工具，为AI生成音乐的商业化探索构建合法合规的产业框架。这一系列动作既展现了Meta在AI技术层面的持续领跑，也凸显其推动AI技术落地与生态规范的双重野心。

作为本次发布的核心技术之一，SAM3（Segment Anything Model 3）实现了图像分割领域的革命性突破，其首创的“可提示概念分割”（PCS）能力彻底摆脱了传统模型对固定标签集的依赖。与仅能识别“人”“车”等预定义类别不同，SAM3可精准响应“条纹红色雨伞”“坐在长椅上未持物品的人”等复杂自然语言描述，甚至能通过图像示例捕捉罕见或难以文字界定的视觉概念。

为支撑这一能力，Meta构建了规模达现有基准50倍的SA-Co数据集，涵盖21.4万个独特概念、12.4万张图像及1700个视频，为模型提供了海量多元的训练样本。在实际性能测试中，SAM3处理包含上百个物体的单张图像仅需30毫秒，针对“图像中不存在某类物体”的负提示标注速度比纯人工快5倍，正提示标注在细粒度领域也提升36%效率，展现出技术突破与实用价值的双重优势。

同步发布的SAM3D则将分割能力从二维拓展至三维空间，作为开源模型，其可快速完成场景三维重建与物体分割，为元宇宙场景构建、工业设计、医疗影像三维分析等领域提供核心技术支撑。Meta明确表示，SAM3与SAM3D将逐步整合到Instagram视频创作工具Edits及Meta AI应用中，进一步降低专业视觉处理技术的使用门槛。

在语音处理领域，Meta推出的新一代语音转文本技术以1600余种语言的支持能力刷新行业纪录，覆盖全球绝大多数主流及小众语言，尤其强化了对低资源语言的识别精度。这一技术并非简单的语言叠加，而是基于Meta成熟的多模态对齐技术——通过轻量级适配器将音频信号投射到语言模型的文本嵌入空间，实现语音与文本的深度语义匹配，其技术逻辑与此前AnyMAL模型的跨模态处理框架一脉相承。该技术将首先应用于WhatsApp的实时翻译功能及全球公益项目，助力消除跨语言沟通壁垒。

概念级图像编辑功能则构建在SAM3的精准分割能力之上，用户可通过“将蓝天替换为晚霞”“让老人的外套变为藏蓝色”等自然语言指令，实现对图像元素的精细化编辑。与传统图像编辑工具不同，该功能无需手动框选目标区域，模型可通过语义理解自动定位编辑对象并完成风格融合，其背后依托的MetaCLIP视觉编码器技术，已在ChartQA、DocVQA等多模态基准测试中超越GPT-4o和Gemini 2.0 Flash。

「93913原创内容，转载请注明出处」

Meta多模态AI生态再升级：SAM3系列引领技术突破，音乐AI探索合法新路径

相关文章

国产AI大模型再破局！MiniMax-M2开源发布性能全球前五开源第一

微软发布BitNet b1.58 2B4T，以低精度架构实现高效大型语言模型

腾讯元宝生态布局再提速跨场景打通覆盖数亿用户增长势头领跑行业

可灵AI双料发布引行业震动：O1模型重构创作逻辑，数字人2.0实现5分钟专业演绎

阿里即将发布新模型Qwen3，开启AI领域新篇章

腾讯无需英伟达最先进芯片即可提高AI训练效率

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban

AI应用推荐

热门

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

友情链接

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban