上海交大联合腾讯发布EyeSeg视线追踪方案 94.8%高精度助力VR交互革新

🤖 由 文心大模型 生成的文章摘要

近日,上海交通大学与腾讯等机构联合发布全新视线追踪分割方案EyeSeg,该方案在轻量化设计前提下实现平均94.8%的MIoU(均值交并比)分割精度,同时具备独特的不确定性感知能力与优异的鲁棒性,不仅显著提升了VR眼动交互的稳定性与精准度,更有效降低了硬件算力需求,为消费级VR设备的交互体验升级与成本控制提供了关键技术支撑。

在VR/AR技术加速普及的当下,交互体验的自然性与精准度已成为决定用户沉浸感的核心要素。据行业研究数据显示,当前主流VR设备中仅约30%支持高精度眼动追踪,且普遍存在识别错误率高、硬件依赖度强、复杂场景适应性差等问题,严重制约了眼动交互技术的规模化应用。传统视线追踪方案要么依赖高端传感器导致硬件成本居高不下,要么在光照变化、眼部遮挡等复杂场景下性能大幅衰减,难以平衡精度、效率与硬件适配性的核心矛盾。

EyeSeg方案的推出精准破解了这一行业痛点。研究团队通过技术创新,在采用计算量仅1.53G FLOPs的轻量级主干网络基础上,实现了94.8%的平均MIoU精度,全面超越了RITNet、DeepVOG、DeepLabv3+等主流基线方案。为验证方案性能,团队在OpenEDS、LPW、Dikablis等公开数据集及自建的高难度Else数据集上开展了大量实验,结果显示,即使在模糊、遮挡等极端场景下,EyeSeg的分割结果依然保持优异的完整性与准确性,展现出强大的环境适应性。

不确定性感知能力是EyeSeg方案的另一大技术突破。团队在域内、跨域、遮挡和模糊四种挑战性场景中开展评测,通过模型输出的不确定性分数筛选样本后发现,经EyeSeg筛选的数据子集始终保持最高的MIoU值,证明其不确定性评估与图像实际分割难度高度匹配,能够有效识别并过滤可能导致下游视线估计任务出错的低质量样本,从源头提升了交互系统的可靠性。这一特性使得VR设备在复杂使用环境中,能够主动规避交互误判,显著降低用户操作失误率。

对于VR行业而言,EyeSeg方案的轻量化设计具有重要的产业化价值。当前消费级VR设备普遍面临算力与续航的平衡难题,IDC数据显示,移动端VR设备需在90ms内维持90FPS以上帧率才能保障基本沉浸感,而传统视线追踪方案的高算力需求往往会与渲染任务争夺硬件资源,导致帧率波动或续航缩短。EyeSeg通过优化算法架构降低算力消耗,可在普通VR硬件平台上稳定运行,无需额外升级芯片或传感器,为厂商在不提升硬件成本的前提下优化交互体验提供了可能。

随着苹果Vision Pro等旗舰设备推动行业向眼动+手势的多模态交互范式转型,眼动追踪精度已成为VR设备的核心竞争力指标。业内专家指出,EyeSeg方案将视线追踪的高精度优势与轻量化特性相结合,不仅填补了消费级VR高精度眼动交互的技术空白,更契合了行业“降本增效”的发展趋势。其在降低硬件门槛的同时,可将眼动交互延迟进一步压缩,配合多模态交互技术有望使VR用户任务完成效率提升30%以上。

「93913原创内容,转载请注明出处」