「空间计算」致胜法则:苹果Vision Pro眼球追踪技术深入解析

🤖 由 文心大模型 生成的文章摘要

在此前发表的「魔鬼都在细节里」,苹果Vision Pro教给XR行业的六堂课一文中,我们梳理了苹果Vision Pro值得行业学习和借鉴的一些设计巧思。纵观全文不难发现,这“六堂课”都与眼球追踪技术息息相关。

例如,在Vision Pro中,用户的登陆和认证不再使用PC时代的密码登陆或者智能手机时代的指纹、人脸识别,而是采用了名为Optic ID的虹膜识别;Vision Pro将眼控交互作为主要交互方式之一,用户通过注视便可自动选中APP,再配合手势和语音命令,即可在虚拟现实中轻松、优雅的完成各种交互。

除此之外,基于眼球追踪技术,Vision Pro还实现了注视点渲染、自动瞳距调节、Eyesight(反向透视)、Persona(数字人)等多项实用且极具科技感的功能。

那么,今天我们就从「交互设计」的角度出发,深入聊一聊为Vision Pro带来自然、优雅体验背后的眼球追踪技术。值得一提的是,为了在一些眼球追踪领域问题上得到更为专业的解答,我们特意请教了XR眼球追踪领域的专家——七鑫易维副总裁路伟成,为我们提供更深入、专业的解读。

衡量眼球追踪系统的关键指标

眼球追踪究竟是一门什么技术?

简单来说,眼球追踪就是通过测量眼球信息和运动,从而获取人眼实时数据的技术,其中一个最常用的数据就是视线方向,也称为注视点坐标。眼球追踪基于“脑-眼一致性假说”的原理,即目光所处的位置通常与关注和思考的事物有关,通过提取眼球特征信息估计视线方向或眼睛注视点位置来监测眼动的变化,从而推断出人脑正在发生的事情。

那么,我们如何量化的评判眼球追踪系统的优劣?

路伟成告诉我们,业界通常会通过两大维度来做出评判:

1、准确度和精确度

在衡量眼球追踪数据时,准确度和精确度是造成大多数注视数据偏差的主要原因,因而一般将这两种属性作为评估眼球追踪质量的重要依据之一,准确度和精确度同时也是衡量眼动仪性能的重要指标(Hornof&Halverson 2002)。

具体而言,准确度(Accuracy)即注视位置与眼动仪采集到的视线位置之间的平均误差;精确度(Precision)则是眼动仪在持续记录同一个注视点时的离散程度,即通过连续样本的均方根衡量误差值。

举个简单的例子,如果我们把眼睛看东西理解为打靶子,注视位置是靶子,人眼的视觉系统是枪械。那么,我们的视线注视点就可以理解为子弹打中靶子的地方,而眼动仪则在整个打靶过程中充当报靶员的角色。

视线的注视点所击中的位置A和报靶员(眼动仪)观测后报出的位置B之间的误差就是准确度;当我们的视线注视点击中位置A后,报靶员对该位置进行多次观测并报告得出B1、B2、B3等多个成绩,那么B1、B2、B3等之间的误差就是精确度。

如下面的三幅图中,从左到右分别代表高精确度低准确度、高精确度高准确度、低精确度低准确度的三种眼动仪。我们将靶心看作我们的视线注视点,红点就是眼动仪对人眼视线注视点进行观测后报告的打靶成绩(眼动仪多次测量得出的采集到的视线位置)。

2、可用率

在了解完准确度和精确度对于眼球追踪的重要性后,我们还需了解眼球追踪领域的另一个重要向量——可用率。

眼球解剖图

进化论之父查尔斯·达尔文曾指出,人眼不可能成为进化的产物,因为它是人体中最为复杂的一个器官。的确,人眼的构造极其复杂,且每个人的情况都完全不同。

比如,不同的人种为了适应不同的生存环境,他们的眼睛也会产生各种不同的特征;而即使是同一个人种、同一个年龄段的人,他们的眼睛也都有极大的差异。

除此之外,不同人的眼睛还存在着各种复杂的情况,如近视、远视、散光,或有人爱化妆、接很长的睫毛,又或戴隐形眼镜等等。

路伟成表示,一项技术如果只能适用于少数人的话,那这项技术很可能永远无法推广,因而攻克人眼个体差异带来的复杂问题,一直以来都是眼球追踪领域极其重视的一大难题。

为应对上述问题,眼球追踪技术解决方案商通常需要搭建起一个巨大的系统,尽可能的将所有人眼的情况都囊括在内,包括眼球特征、双眼瞳距、视力情况以及是否佩戴眼镜等。

然而,人眼的复杂情况远超我们的想象,想要达到一个令人满意的程度,只能通过长时间的人眼数据积累,在算法相同的情况下,数据越多,眼球追踪的可用率自然也就越高。

追求极致:苹果Vision Pro的致胜法则

「空间计算」时代开启,苹果不想让任何人掉队一文中,我们曾提到过苹果的标准交互逻辑,是“眼手口”结合的交互方式。

同时苹果还认为,任何单一的交互方式都应当能够独立的提供完整的Vision Pro交互体系,例如只通过眼控交互使用Vision Pro。而想要达到这样的目标,无疑对眼球追踪系统的精确度、准确度和可用率提出了更高的要求。

另一方面,在准确度、精确度和可用率之外,还有其他因素影响眼球追踪技术在XR领域的普及。

“受限于技术和市场不够成熟的原因,眼球追踪技术成本始终居高不下;由于过去人眼数据库数据稀缺,眼球追踪技术的可用率一直难以有效提升;最后,AR和VR终端的结构形态差异较大,这对眼球追踪技术解决方案商而言也是一个很大的挑战”,路伟成告诉我们。

因此,从Vision Pro来看,在眼球追踪这件事情上,苹果不仅仅是实现了功能,还在诸多方面下足了功夫,再次将一项前沿技术在新的应用领域推向极致:

(一)4个相机+34颗LED灯,瞳孔角膜反射法的极致堆料

为了达到追求更好的规格参数,目前并存着多种非接触式眼球追踪技术路线,包括基于IR的瞳孔角膜反射法、基于MEMS的扫描方案、基于DVS的瞳孔角膜反射法、直接图像处理方案等等,路伟成向我们分别介绍了几种常见的技术路线。

第一种:传统瞳孔角膜反射法——使用IR图像传感器,通过瞳孔中心数据和近红外光源在角膜上反射的图像进行眼球追踪;

第二种:基于MEMS的扫描方案——利用MEMS微镜对眼睛进行光线扫描,再通过接受器分析光线强度变化来进行眼球追踪;

第三种:基于DVS的瞳孔角膜反射法——与基于IR的瞳孔角膜反射法的区别在于,其IR图像传感器,替换为DVS图像传感器;

第四种:直接图像处理方案——通过图像传感器获取眼睛图像,再利用如瞳孔在图像中的各方向直径变化等特征数据进行眼球追踪;

在这其中,目前应用最普遍的是传统瞳孔角膜反射法。基于MEMS的扫描方案和基于DVS的瞳孔角膜反射法,目前技术尚未完全成熟,所以应用有限;直接图像处理方案则由于其技术局限性,各项规格参数较低。

具体而言,瞳孔角膜反射法的原理是将一些低功率主动近红外照射到人眼中,这种人眼无法看到的光会在角膜上产生反射,然后通过传感阵列捕捉近红外图像,经过近红外信号处理后获得眼部特征并识别瞳孔位置,估算出人眼的注释方向以及注视位置,具备精度高、非接触、干扰小、无创等优点。

瞳孔角膜反射法示意图(图源:七鑫易维)

苹果在2017年收购了专注于眼球追踪技术的德国老牌技术公司SMI(SensoMotoric Instruments),之后SMI成为苹果在眼球追踪领域探索的主力军,而SMI一直以来主推的技术路线正是瞳孔角膜反射法。

除苹果外,七鑫易维、Meta、索尼、谷歌等都不约而同地选择将瞳孔角膜反射法作为眼球追踪解决方案的主要技术路线。

而就具体工程实现来看,各厂商也出于不同的目标设计了不同的方案。苹果Vision Pro眼球追踪系统,则是极致的堆料——

首先,Vision Pro配备了4个索尼定制的红外相机(左右眼各2个),带来更优秀的成像解析力。

其次,使用多达34颗红外LED灯,以提供更准确的眼部信息。相比之下,Quest Pro、PICO 4 Pro以及PS VR2等当下主流头显都只配备了左右眼各一颗摄像头和8到10颗左右的红外LED。

苹果极致的堆料,为Vision Pro带来了丰厚的回报。目前市面上主流头显眼球追踪的准确度大概在0.5°~0.9°之间,苹果虽然并未公布Vision Pro眼球追踪模组的具体规格,但就发布会上所展示的眼动交互能力来看,其准确度和精确度应该已远超目前市面上的头显。而据B站上一位专注于技术领域的UP主“E是天翼的翼”推算,Vision Pro的眼动准确度很可能在0.42°~0.45°之间。

(二)定制R1芯片,将交互延迟降至极限

此外,Vison Pro同时搭载了M2和全新的R1芯片,R1芯片是苹果公司专门为这款产品研制的芯片,可谓是Vision Pro实现高性能眼动追踪的独门秘诀。

R1芯片专门处理12个摄像头、5个传感器和6个麦克风的输入,以确保内容实时呈现在用户眼前,R1芯片能在12毫秒内将新图像传输到显示屏中,比眨眼还要快8倍。

除了降低图像到屏幕的延迟,R1芯片还能以超高的精度、极低的延迟识别用户所在的环境以及用户的手势和眼球的运动,精准分析出需要渲染的场景,从而实现动态注视点渲染功能,大大节省了画面渲染的性能开销。

通过Vision Pro提供的低延迟、高精度信息输入,用户得以从控制器中解放出来,只需眼睛注视即可准确地选中元素,以极其自然、优雅且直观的方式与数字世界进行交互。

(三)数据积累先行,通向高可用率的必经之路

在过去的二十年里,苹果推出的iPhone、iPad、MacBook、iMac、Apple Watch等产品,无一例外都引起了市场的高度关注,不仅在外观设计和用户体验上有所革新,还在技术层面不断进行创新,为消费者带来了更好的体验。

正如当年的初代iPhone一样,Vision Pro为人们带来更加自然且优雅的人机交互,打破了虚实界限,极大地拓宽了虚拟现实技术的适用场景。但要让Vision Pro及其后继产品能够真正被每个消费者使用,苹果还需要跨过可用率的大关。

实际上,在Vision Pro推出之前,苹果可能就已经在为提高眼球追踪技术的可用率默默的积累数据了。

2017年11月3日,苹果iPhone X正式开售,这款机型采用了与前代产品大相径庭的交互设计——用Face ID替代了Touch ID与实体按键,让iPhone进入了全面屏时代。

根据当时苹果分享的Face ID白皮书,Face ID利用最新的原深感摄像头系统和多项先进技术,能够准确地映射用户面部的几何结构,从而提供安全直观的认证方法。同时,还有一个苹果未曾大肆宣传的功能悄悄上线,即眼球追踪功能。iPhone额外增加了一颗红外摄像头和红外光源,专门用于眼球追踪,虽然其使用的场景主要局限在提升安全性的注视感知和活体检测上,但在此过程中,用户的眼部特征自然也作为面部信息的一部分被收集到了苹果的数据库当中。

我们前面已提到,人眼的情况极其复杂,因此想要达到较好的眼球追踪效果,就必须进行长时间的人眼数据积累,数据越多则眼球追踪的可用率也就越高。市场调研数据显示,自iPhone X以来,搭载Face ID的iPhone手机全球销量已超20亿台,这海量的数据为Vision Pro眼球追踪功能的可用率提供了坚实的保证。

根据国际相关标准,眼球追踪系统的可用率达到94%就已经合格。国内眼球追踪领域的头部企业七鑫易维,凭借十几年的积淀,积累了千万量级、脱敏处理的眼部特征数据库,已经将眼球追踪的可用率提高到98%以上。

苹果虽然并未直接公布Vision Pro的可用率数据,但根据合理推测,这一数据或许已经超过了99%,将消费者遇到眼球追踪功能无法正常使用情况的概率,降到了最低。

(四)AI算法加持,打造基于眼睛的「脑机接口」

在Vision Pro发布之后,曾担任苹果AR神经技术研究员的Sterling Crispin对Vision Pro的开发进行了深入剖析,分享了Vision Pro是如何实现用户视线跟踪,并完美实现界面导航的原因。

按照Crispin的说法,AI算法的加持为Vision Pro眼动追踪的可用性提供了强大支持。

Crispin在分享中表示,“当用户处于MR或VR的体验中,AI模型会尝试预测你是感到好奇、走神、害怕、专注、回忆过去的经历,还是其他一些认知状态。而这些状态可能通过眼球追踪、大脑电活动、心跳和节律、肌肉活动、大脑血液密度、血压、皮肤电导等测量得到。”

其中,“最酷的成果之一”即在用户点击某个东西之前,Vision Pro就能提前预测他的意图。“Vision Pro可在用户实际点击前便预测出用户想要点击的内容,部分原因在于人眼会对点击后产生的结果有预期反应。由此,我们可以通过检测用户的眼动轨迹,并分析其大脑反馈的生物信息,实时重新设计用户界面来创建更多符合瞳孔预期信息的反馈。”

对于Crispin的说法,路伟成表示:“七鑫易维和很多知名高校在心理与认知、脑科学等专业领域都有深度合作,在学术层面和应用层面都证明了眼球追踪与用户心理之间的强关联性,将这种特性应用于XR交互的潜力非常大。同时,七鑫易维也是最早将AI应用于眼球追踪领域的先行者之一。”

因此,从某种意义上来说,AI算法加持下的Vision Pro眼球追踪技术甚至可以媲美「读心术」。正如Crispin所说,苹果通过Vision Pro打造出一个基于眼睛的「脑机接口」。

写在最后

在本文中,我们系统梳理了苹果Vision Pro最打动人心的眼球追踪技术,解读了Vision Pro为我们带来优雅、自然的交互体验背后的技术原理。可以说,是苹果将眼球追踪的真正潜力呈现给世人,让Vision Pro的体验一枝独秀,成为「空间计算」的致胜法则。

正如我们此前提到的,苹果真正厉害的地方在于「想到」并且「做到」,用自然、无缝并且智能化的用户体验,诠释了“顶尖产品往往就是这么朴实无华”。敢想敢做,且一出手便能做到极致。只能说,这风格的确很「苹果」。

「93913原创内容,转载请注明出处」