苹果双AI模型破局:Matrix3D重塑3D建模,StreamBridge智领视频交互

🤖 由 文心大模型 生成的文章摘要

苹果在其机器学习博客上重磅发布两篇研究论文,深度揭秘两大前沿人工智能模型:一款专注于革新摄影测量技术,另一款则致力于打造智能化视频个人助理。作为全球领先的iPhone制造商,苹果对机器学习领域的探索由来已久,如今机器学习已成为其人工智能技术体系的核心支柱。近年来,苹果频繁公开研究成果,通过一系列论文展示其在未来科技领域的卓越探索与显著进展。

借助Apple Intelligence,用户得以体验诸多创新应用,涵盖Image Playground创意工具、邮件应用中的AI智能回复、邮件与通知智能摘要,以及全新写作工具框架等,无不彰显着苹果在AI应用层面的强大实力。此次两篇论文的发表,更是为外界洞察苹果未来AI功能的演进方向提供了关键线索,其中着重介绍的Matrix3D和StreamBridge两款AI模型备受瞩目。

苹果官方介绍,Matrix3D堪称一体化大型摄影测量模型的典范之作,它的问世彻底简化了从2D图像构建3D对象的复杂流程,大幅降低技术门槛。从苹果公布的示例视频中可以直观看到,该模型仅需少量几张图像,便能精准生成逼真的3D对象与虚拟环境。​

摄影测量技术并非新鲜事物,在游戏开发、建筑测绘等众多领域早已广泛应用。然而,苹果凭借Matrix3D实现了重大突破,彻底改变了传统摄影测量流程繁琐、易出错的局面。传统摄影测量方法往往将各个子过程孤立处理,每个步骤都依赖特定算法,操作复杂且效率低下。与之形成鲜明对比的是,Matrix3D借助统一架构,能够一站式完成深度和姿态估计、新颖视图合成等关键任务,从根本上提升了3D重建的准确性与效率。​

在模型训练方面,Matrix3D采用了独特的 “蒙版学习策略”。该策略让模型在部分完整的图像深度和姿态数据基础上进行学习,促使其通过 “填补数据空白” 的方式达成预期结果。正如苹果在研究论文中指出,传统摄影测量通常需要数百张图像才能实现稳定且精确的 3D 重建,在实际应用中存在诸多不便。而Matrix3D仅需2-3张图像就能达到相同效果,极大地降低了对图像数量的要求,显著提升了实用性。目前,这一技术已在Apple Vision Pro设备上得到应用,实现了对任意图像(即便不含肖像模式深度数据)的2D到3D转换,展现出强大的兼容性与拓展性。​

另一款引发广泛关注的StreamBridge模型,则聚焦于视频领域的智能交互。苹果在相关研究论文中明确表示,StreamBridge是一个能够将 “视频大语言模型(LLM)转化为流媒体模型” 的创新框架。相较于部分AI模型需预先处理完整视频文件的模式,StreamBridge具备“多轮实时理解”与“主动响应生成”的独特优势。​

这意味着,无论用户何时提出关于视频内容的问题,如视频中的事件经过、发生地点,或是特定物体的相关信息,StreamBridge 都能迅速做出实时响应。更为惊艳的是,该模型无需用户主动提问,便能主动监控视频流内容,根据画面变化及时生成相关指导信息。例如,在展示绘图过程的视频中,StreamBridge会自动为用户提供分步操作指导,模拟出动态场景下的持续智能支持。值得一提的是,科技行业内其他巨头也在积极布局视频AI工具领域。

在2024年5月的Google I/O开发者大会上,谷歌展示了用户以视频提问获取AI回复的创新应用——当AI系统观看唱片机故障视频后,能够准确识别型号并指出可能因平衡问题导致无法工作。相比之下,苹果StreamBridge更进一步,它能够处理实时视频流,并基于动态输入提供详细的分步操作指南,而非简单的一句话回复,为用户带来更具沉浸感与实用性的交互体验。

虽然目前 StreamBridge 尚未正式集成到苹果产品功能中,但业界普遍猜测,未来很可能会通过Apple Intelligence更新,在Siri或相机应用等场景中亮相。同理,Matrix3D模型也极有可能为Apple Vision Pro及其后续产品注入更强大的功能,为用户带来全新的沉浸式体验,据悉相关后续产品已在紧锣密鼓的研发进程中。

「93913原创内容,转载请注明出处」