Apple Vision Pro新专利：唇读技术解锁无声指令与听写

🤖 由文心大模型生成的文章摘要

苹果始终在探索未来交互的更多可能性，其中一项研究聚焦于让Apple Vision Pro能够识别用户的嘴部运动，从而实现纯粹通过唇读来接收指令或完成听写功能。

这一功能可视为现有AirPods Pro操作方式的延伸。目前，AirPods Pro用户可通过摇头挂断通话、点头接听来电——在不便开口的场景下，摇头能传递拒绝之意；即便双手被占用但可以说话时，点头也能快速完成接听操作。

而在苹果最新公布的一项名为 “具有听写结构的电子设备” 的专利申请中，其进一步设想让用户在无法发声的情况下依然能进行听写。专利文件中提到：“当用户处于公共场所，或其他需要保持谨慎、注重隐私、维持安静的环境时，语音听写往往会显得格外不便。”

这份长达21页的专利声明，并未提及用户戴着头显无声 “说话” 可能给社交带来的影响，但对于嘈杂环境下的交互痛点，却给出了合理的解决方案。“同样，某些环境中的背景噪音，也会影响头戴式设备准确、可靠地识别用户的语音输入。” 因此，苹果认为 “需要一种能让用户轻松向其口述内容的头戴式设备”。

该专利提案涵盖了多种可能的技术组合方案。其中一种是在显示屏框架上安装朝外向下的视觉传感器，专门用于 “检测嘴部运动”。

此外，还可能配备 “附加传感器，用于检测面部振动或面部变形中的至少一项”。除了上述一种或两种传感器外，Apple Vision Pro还可借助“内置摄像头，根据眼球注视来判断输入选择”。

若这三种方案的冗余度仍未达到要求，还可添加 “包括外部摄像头在内的另一传感器，用于检测表示确认输入选择的手势”。

值得注意的是，专利中提到的最后一部分功能指出，佩戴者可通过手势示意自己想要开始口述或停止口述，而在这些手势之间的任何嘴部动作，都将被设备识别为口述内容。

不过，目前尚未明确该头显是否同时支持常规听写功能。这意味着，即便在没有信号的情况下，设备可能也会持续处于监听状态，即便用户只是低声嘟囔，也可能被识别。

但苹果确实提到了将利用音频数据来训练 Apple Vision Pro 识别用户的语音模式：“训练功能可包含录音（例如，说话音量在40分贝至70分贝之间的音频片段，耳语音量在20分贝至 50 分贝之间的音频片段等）。”

专利文件还补充道：“[或者] 视觉数据可涵盖包含用户嘴巴的视野在不同方向或角度下的画面（例如，从面向用户的设备获取的侧面视图，能完整呈现用户的嘴巴；从下颌处摄像头获得的向下角度视图，可部分展示用户的嘴巴等）。”

「93913原创内容，转载请注明出处」

相关文章