DeepSeek-OCR 2开源发布:AI仿人类认知重构复杂文档识别新范式

🤖 由 文心大模型 生成的文章摘要

人工智能企业DeepSeek正式开源新一代OCR专用模型DeepSeek-OCR 2,凭借仿人类阅读逻辑的技术创新,打破传统OCR机械扫描的局限,在复杂文档识别场景中实现稳定性与可靠性的双重飞跃。这一突破不仅验证了AI模仿人类认知过程构建视觉语言模型的可行性,更将为办公自动化、无障碍工具开发等领域注入全新动能,推动数字内容处理技术迈入“理解式识别”新时代。

长期以来,传统OCR技术受限于固定栅格扫描逻辑,始终停留在“文字提取”层面——无论文档布局如何复杂,均按从左到右、从上到下的机械顺序处理图像。这种模式在面对学术论文、多栏合同、带合并单元格的报表等复杂场景时,常出现识别顺序混乱、公式解析失真、表格结构错位等问题,大幅依赖人工校对,成为数字化转型中的效率瓶颈。而DeepSeek-OCR 2的核心突破,在于通过创新的DeepEncoder V2技术,让AI真正学会“像人类一样观察与理解”文档。

DeepEncoder V2编码器采用类语言模型架构,替代了传统基于CLIP的视觉编码模块,创新性引入“视觉因果流”机制与双向注意力、因果注意力双重处理模式。模型首先通过双向注意力对图像进行全局感知,精准识别标题、条款、表格、公式等不同元素的空间位置与语义关联;再借助因果注意力建立逻辑顺序,根据内容含义动态重排视觉信息,而非受限于物理空间顺序。这种处理方式完全贴合人类阅读习惯——如同人阅读合同时会按“封面→目录→总则→违约责任→附件”的逻辑推进,而非逐行扫描,从根本上解决了复杂文档的结构理解难题。

权威基准测试数据印证了技术升级的实效。在覆盖9种文档类型、4种排版风格的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2整体得分达91.09%,相较前代模型实现3.73%的显著提升;在衡量复杂文档识别核心能力的阅读顺序准确度指标上,编辑距离从0.085降至0.057,意味着模型对内容结构的理解能力实现质的飞跃。更为亮眼的是,该模型在保持高性能的同时兼顾实用价值,将单页文档视觉token数量控制在256至1120之间,资源开销与同类系统持平,避免了性能提升伴随的计算成本激增问题。在实际场景测试中,其处理在线用户日志图像的重复率从6.25%降至4.17%,批处理PDF数据的重复率从3.69%降至2.88%,稳定性与可靠性优势显著。

「93913原创内容,转载请注明出处」