
预印本平台arXiv发布一项突破性研究成果——LLM-Glasses智能眼镜系统。该设备创新性融合YOLO-World开放词汇目标检测技术、GPT-4o生成式AI推理能力与镜腿触觉反馈模块,以“视觉转触觉”的无音频交互模式,为视障人士日常出行提供了高效且隐蔽的导航解决方案,实测障碍物识别准确率区间达81.5%-91.8%,展现出极强的实用价值。
据研究团队介绍,LLM-Glasses的核心优势在于打破了传统视障辅助设备对音频输出的依赖,通过多模态AI技术与触觉交互的深度融合,构建起更符合复杂场景需求的导航体系。与依赖固定类别识别的传统设备不同,该系统搭载的YOLO-World模型成为视觉感知的“核心引擎”——这一基于Ultralytics YOLOv8框架优化的开放词汇检测器,凭借视觉-语言建模能力和大规模数据集预训练优势,可实现零样本场景下的实时对象检测,无需重新训练即可通过自定义提示适配多样化检测需求。其独特的“提示-然后-detect”策略通过离线词汇嵌入技术,在大幅降低计算开销的同时,保障了动态场景下的识别效率,为后续推理与反馈提供了精准的视觉数据支撑。
GPT-4o的介入则让设备具备了场景化推理能力,实现从“识别对象”到“生成指引”的关键跨越。当YOLO-World捕捉到前方障碍物(如行人、台阶、障碍物等)后,会将视觉特征数据传输至GPT-4o模型,后者结合实时场景上下文进行快速推理,判断障碍物类型、距离及规避路径,随后将决策转化为预设的触觉信号指令。研究团队设计了13种distinct触觉模式,通过镜腿内置的微型执行器传递给佩戴者,例如左侧镜腿连续震动提示左方障碍、节奏性震动表示距离渐变等,经测试平均识别率达81.3%,确保佩戴者能快速解读指引信息。
三项核心用户研究验证了LLM-Glasses的可靠性与适应性。在开放场景测试中,设备障碍物识别准确率达91.8%;面对静态障碍物(如栏杆、桌椅)时准确率为84.6%;即便在动态场景(如行人穿梭、车辆通行)中,准确率仍维持在81.5%的较高水平。此外,基于Vicon动作捕捉系统的导航实验显示,佩戴者可凭借触觉指引成功完成预设路径行走,全程无需依赖他人协助或音频提示,有效降低了认知负荷,尤其适合嘈杂环境下的出行需求。
相较于现有视障辅助技术,LLM-Glasses在交互体验与实用性上实现了双重突破。传统GPS导航依赖音频播报,易受环境噪音干扰且泄露隐私;视觉增强类设备则存在佩戴笨重、依赖特定光线条件等问题。而该设备采用无音频设计,通过触觉反馈实现隐蔽式交互,同时依托YOLO-World的高效计算能力,可适配轻量化硬件集成,外观更接近普通眼镜,提升了日常佩戴的接受度。研究团队指出,YOLO-World模型的高效性是设备轻量化的关键——其计算成本仅为同类开放词汇检测模型(如SAM)的一小部分,却能在速度与准确率上实现平衡,为穿戴设备的实时应用提供了可能。








