Meta已成功对其全身Codec Avatars技术进行优化提炼,如今在Quest 3独立版上可同时渲染出3个该化身,但这一成果的背后也伴随着一些明显的权衡。
近十年来,Meta始终致力于研发Codec Avatars技术。这项技术借助VR头显的面部及眼球追踪功能,能够实时驱动出逼真的人体数字化身。根据实际体验,最高质量的原型版本在突破恐怖谷效应方面取得了非凡成就。
Codec Avatars的核心目标是传递社交临场感,也就是让人们在潜意识中觉得自己真的在和另一个人相处,即便对方并不在现场。这一点,无论是平板技术,甚至是视频通话,都难以做到。
为了能让Codec Avatars最终成功推出,Meta一直在不懈努力:一方面不断提升系统的真实感与适应性,另一方面降低其实时渲染的要求,并且力求实现通过智能手机扫描就能生成该化身。
比如,上周我们曾报道过Meta在高度逼真的头部Codec Avatar方面的最新进展。借助高斯分布技术(Gaussian splatting),只需一段旋转头部的自拍视频,再加上服务器GPU大约一小时的处理时间,就能生成这样的化身。近年来,高斯分布技术在逼真的体积渲染领域发挥着至关重要的作用,其地位堪比大型语言模型(LLM)在聊天机器人领域的影响力。
不过,该系统最初的设计是在性能强大的PC显卡上运行。而现在,Meta的研究人员已经找到在Quest 3上实时运行全身Codec Avatar的方法。
在一篇名为《SqueezeMe:高斯全身头像的移动就绪提炼》的论文中,研究人员详细阐述了如何利用NPU和GPU对全身逼真头像进行优化,使其能够在移动芯片组上运行。
或许你在大型语言模型(LLM)或人工智能(AI)的相关语境中听说过“蒸馏”这个词。它指的是利用一个大型且计算成本高昂的模型的输出,来训练一个规模小得多的模型。其核心理念是,让小模型能够高效地复制大型模型的功能,同时将质量损失降到最低。
研究人员表示,SqueezeMe技术可以在Quest 3上以72FPS的速度渲染出3个全身头像,与在PC上渲染的版本相比,质量几乎没有损失。
然而,有几个关键的权衡之处需要留意。
这些头像的生成,依靠的是传统的大规模自定义捕捉阵列,该阵列配备了超过100个摄像头和数百盏灯,而非Meta近期在其他Codec Avatars研究中所采用的新“通用模型”智能手机扫描方法。
而且,它们采用的是平面光照,不支持动态重新光照。而支持动态重新光照是Meta最新PC版Codec Avatars的旗舰功能,对于让该化身适应VR环境和混合现实来说至关重要。
尽管存在这些不足,但这项研究对于Meta而言,仍是朝着最终将Codec Avatars作为其HorizonOS头显的实际功能所迈出的充满希望的一步。
今年,随着苹果在visionOS中推出新的Persona,公众对Meta的压力显著增大,大家纷纷要求Meta推出这款已研究十年的产品,这也相当于在督促Meta兑现其承诺。
但问题在于,Quest 3和Quest 3S均不支持眼动追踪或面部追踪,而且目前没有迹象表明Meta计划在近期推出另一款具备这两种功能的头显。此前的QuestPro曾支持这两项功能,不过已于今年年初停产。
有一种可能性是,Meta会首先推出带有AI模拟面部追踪功能的初级平板版本Codec Avatars,让用户能够以比Meta Avatar更逼真的形式参与Whats App和Messenger视频通话。
Meta Connect 2025将于9月17日举行,届时该公司很可能会分享更多关于Codec Avatars技术的进展情况。