Apple Vision Pro新专利:唇读技术解锁无声指令与听写

🤖 由 文心大模型 生成的文章摘要

苹果始终在探索未来交互的更多可能性,其中一项研究聚焦于让Apple Vision Pro能够识别用户的嘴部运动,从而实现纯粹通过唇读来接收指令或完成听写功能。​

这一功能可视为现有AirPods Pro操作方式的延伸。目前,AirPods Pro用户可通过摇头挂断通话、点头接听来电——在不便开口的场景下,摇头能传递拒绝之意;即便双手被占用但可以说话时,点头也能快速完成接听操作。​

而在苹果最新公布的一项名为 “具有听写结构的电子设备” 的专利申请中,其进一步设想让用户在无法发声的情况下依然能进行听写。专利文件中提到:“当用户处于公共场所,或其他需要保持谨慎、注重隐私、维持安静的环境时,语音听写往往会显得格外不便。”​

这份长达21页的专利声明,并未提及用户戴着头显无声 “说话” 可能给社交带来的影响,但对于嘈杂环境下的交互痛点,却给出了合理的解决方案。“同样,某些环境中的背景噪音,也会影响头戴式设备准确、可靠地识别用户的语音输入。” 因此,苹果认为 “需要一种能让用户轻松向其口述内容的头戴式设备”。​

该专利提案涵盖了多种可能的技术组合方案。其中一种是在显示屏框架上安装朝外向下的视觉传感器,专门用于 “检测嘴部运动”。​

此外,还可能配备 “附加传感器,用于检测面部振动或面部变形中的至少一项”。除了上述一种或两种传感器外,Apple Vision Pro还可借助“内置摄像头,根据眼球注视来判断输入选择”。​

若这三种方案的冗余度仍未达到要求,还可添加 “包括外部摄像头在内的另一传感器,用于检测表示确认输入选择的手势”。​

值得注意的是,专利中提到的最后一部分功能指出,佩戴者可通过手势示意自己想要开始口述或停止口述,而在这些手势之间的任何嘴部动作,都将被设备识别为口述内容。​

不过,目前尚未明确该头显是否同时支持常规听写功能。这意味着,即便在没有信号的情况下,设备可能也会持续处于监听状态,即便用户只是低声嘟囔,也可能被识别。​

但苹果确实提到了将利用音频数据来训练 Apple Vision Pro 识别用户的语音模式:“训练功能可包含录音(例如,说话音量在40分贝至70分贝之间的音频片段,耳语音量在20分贝至 50 分贝之间的音频片段等)。”​

专利文件还补充道:“[或者] 视觉数据可涵盖包含用户嘴巴的视野在不同方向或角度下的画面(例如,从面向用户的设备获取的侧面视图,能完整呈现用户的嘴巴;从下颌处摄像头获得的向下角度视图,可部分展示用户的嘴巴等)。”

「93913原创内容,转载请注明出处」