Meta多模态AI生态再升级:SAM3系列引领技术突破,音乐AI探索合法新路径

🤖 由 文心大模型 生成的文章摘要

Meta在多模态人工智能领域集中释放重磅成果,不仅推出第三代“分割一切”模型SAM3及3D重建专用模型SAM3D,更带来支持1600余种语言的语音转文本技术与概念级图像编辑功能。与此同时,Meta宣布与华纳音乐集团达成战略合作,共同开发负责任的音乐AI工具,为AI生成音乐的商业化探索构建合法合规的产业框架。这一系列动作既展现了Meta在AI技术层面的持续领跑,也凸显其推动AI技术落地与生态规范的双重野心。

作为本次发布的核心技术之一,SAM3(Segment Anything Model 3)实现了图像分割领域的革命性突破,其首创的“可提示概念分割”(PCS)能力彻底摆脱了传统模型对固定标签集的依赖。与仅能识别“人”“车”等预定义类别不同,SAM3可精准响应“条纹红色雨伞”“坐在长椅上未持物品的人”等复杂自然语言描述,甚至能通过图像示例捕捉罕见或难以文字界定的视觉概念。

为支撑这一能力,Meta构建了规模达现有基准50倍的SA-Co数据集,涵盖21.4万个独特概念、12.4万张图像及1700个视频,为模型提供了海量多元的训练样本。在实际性能测试中,SAM3处理包含上百个物体的单张图像仅需30毫秒,针对“图像中不存在某类物体”的负提示标注速度比纯人工快5倍,正提示标注在细粒度领域也提升36%效率,展现出技术突破与实用价值的双重优势。

同步发布的SAM3D则将分割能力从二维拓展至三维空间,作为开源模型,其可快速完成场景三维重建与物体分割,为元宇宙场景构建、工业设计、医疗影像三维分析等领域提供核心技术支撑。Meta明确表示,SAM3与SAM3D将逐步整合到Instagram视频创作工具Edits及Meta AI应用中,进一步降低专业视觉处理技术的使用门槛。

在语音处理领域,Meta推出的新一代语音转文本技术以1600余种语言的支持能力刷新行业纪录,覆盖全球绝大多数主流及小众语言,尤其强化了对低资源语言的识别精度。这一技术并非简单的语言叠加,而是基于Meta成熟的多模态对齐技术——通过轻量级适配器将音频信号投射到语言模型的文本嵌入空间,实现语音与文本的深度语义匹配,其技术逻辑与此前AnyMAL模型的跨模态处理框架一脉相承。该技术将首先应用于WhatsApp的实时翻译功能及全球公益项目,助力消除跨语言沟通壁垒。

概念级图像编辑功能则构建在SAM3的精准分割能力之上,用户可通过“将蓝天替换为晚霞”“让老人的外套变为藏蓝色”等自然语言指令,实现对图像元素的精细化编辑。与传统图像编辑工具不同,该功能无需手动框选目标区域,模型可通过语义理解自动定位编辑对象并完成风格融合,其背后依托的MetaCLIP视觉编码器技术,已在ChartQA、DocVQA等多模态基准测试中超越GPT-4o和Gemini 2.0 Flash。

「93913原创内容,转载请注明出处」