苹果正式发布了FastVLM,这是一款专为高分辨率图像处理优化的视觉语言模型(VLM),其在iPhone等移动设备上展现出的高效运行能力和卓越性能,瞬间引发了行业的广泛热议。FastVLM通过创新的FastViTHD视觉编码器,成功实现了高达85倍的编码速度提升,为实时多模态AI应用提供了强有力的支持。
FastVLM的核心技术在于其全新设计的FastViTHD混合视觉编器,该编码器针对高分辨率图像处理进行了深度优化。它采用了动态分辨率调整技术,通过多尺度特征融合,能够智能识别图像关键区域,从而减少冗余计算。同时,其层次化令牌压缩技术可将视觉令牌数量从 1536压缩至576,大幅减少了62.5%的计算量。在硬件优化方面,FastVLM 针对苹果硅片(如 M2、A18)对矩阵运算进行了优化,并支持FP16和INT8量化,确保了在移动设备上的低功耗运行。
FastVLM模型系列包含0.5B、1.5B和7B参数变体,能够覆盖从轻量级到高性能的多种应用场景。其中最小模型FastVLM – 0.5B在编码速度上比LLaVA – OneVision – 0.5B快85倍,且视觉编码器体积缩小了3.4倍,却仍能保持相近的性能。
基准测试结果显示,FastVLM在视觉语言任务中性能出色。在 SeedBench 的多模态理解任务中,它与 LLaVA – OneVision 性能持平,但推理速度有显著提升;在处理高分辨率图像的复杂推理任务 MMMU 中,展现出了强大的上下文理解能力;在TextVQA与DocVQA任务中,相较于 ConvLLaVA,TextVQA性能提升了8.4%,DocVQA 提升了12.5%。此外,FastVLM 通过单一图像编码器实现多任务支持,无需额外令牌裁剪,简化了模型设计。其 7B 变体基于 Qwen2 – 7B,在COCO Caption基准上达到了82.1%的准确率,同时在首次令牌时间(TTFT)上保持着7.9倍的优势,为实时应用奠定了坚实基础。
FastVLM专为苹果生态进行了优化,支持通过MLX框架在 iPhone、iPad和Mac上本地运行。借助CoreML集成,通过CoreML工具链实现模型转换后,可支持60FPS的连续对话体验。其INT8动态量化技术减少了40%的内存使用率,同时还能保持98%的准确率。在iPad Pro M2上,FastVLM能够实现高帧率多模态推理,适用于AR、图像编辑和医疗影像分析等多种场景。
苹果还发布了iOS演示应用,展示了FastVLM在移动设备上的实时性能。例如,在肺结节检测中,FastVLM实现了93.7%的准确率,诊断效率提升了40%;在智能手机生产线质检中,将缺陷误报率从2.1%降至0.7%。