DeepSeek-OCR 2开源发布：AI仿人类认知重构复杂文档识别新范式

🤖 由文心大模型生成的文章摘要

人工智能企业DeepSeek正式开源新一代OCR专用模型DeepSeek-OCR 2，凭借仿人类阅读逻辑的技术创新，打破传统OCR机械扫描的局限，在复杂文档识别场景中实现稳定性与可靠性的双重飞跃。这一突破不仅验证了AI模仿人类认知过程构建视觉语言模型的可行性，更将为办公自动化、无障碍工具开发等领域注入全新动能，推动数字内容处理技术迈入“理解式识别”新时代。

长期以来，传统OCR技术受限于固定栅格扫描逻辑，始终停留在“文字提取”层面——无论文档布局如何复杂，均按从左到右、从上到下的机械顺序处理图像。这种模式在面对学术论文、多栏合同、带合并单元格的报表等复杂场景时，常出现识别顺序混乱、公式解析失真、表格结构错位等问题，大幅依赖人工校对，成为数字化转型中的效率瓶颈。而DeepSeek-OCR 2的核心突破，在于通过创新的DeepEncoder V2技术，让AI真正学会“像人类一样观察与理解”文档。

DeepEncoder V2编码器采用类语言模型架构，替代了传统基于CLIP的视觉编码模块，创新性引入“视觉因果流”机制与双向注意力、因果注意力双重处理模式。模型首先通过双向注意力对图像进行全局感知，精准识别标题、条款、表格、公式等不同元素的空间位置与语义关联；再借助因果注意力建立逻辑顺序，根据内容含义动态重排视觉信息，而非受限于物理空间顺序。这种处理方式完全贴合人类阅读习惯——如同人阅读合同时会按“封面→目录→总则→违约责任→附件”的逻辑推进，而非逐行扫描，从根本上解决了复杂文档的结构理解难题。

权威基准测试数据印证了技术升级的实效。在覆盖9种文档类型、4种排版风格的OmniDocBench v1.5基准测试中，DeepSeek-OCR 2整体得分达91.09%，相较前代模型实现3.73%的显著提升；在衡量复杂文档识别核心能力的阅读顺序准确度指标上，编辑距离从0.085降至0.057，意味着模型对内容结构的理解能力实现质的飞跃。更为亮眼的是，该模型在保持高性能的同时兼顾实用价值，将单页文档视觉token数量控制在256至1120之间，资源开销与同类系统持平，避免了性能提升伴随的计算成本激增问题。在实际场景测试中，其处理在线用户日志图像的重复率从6.25%降至4.17%，批处理PDF数据的重复率从3.69%降至2.88%，稳定性与可靠性优势显著。

「93913原创内容，转载请注明出处」

DeepSeek-OCR 2开源发布：AI仿人类认知重构复杂文档识别新范式

相关文章

15张图表描述2024年AI发展现状

苹果已与Meta就人工智能领域合作进行探讨

阿里推出100多个新开源AI模型，发布文本转视频生成工具

OpenAI紧急提前发布GPT-5.2：弃炫技重实用，硬刚谷歌Gemini3

阿里巴巴将携AIStack大模型一体机亮相第八届数字中国建设峰会

微软连发三款自研MAI模型性能超越OpenAI且定价腰斩打响AI战略独立关键一枪

推荐

VR虚拟世界接连关停，社区抱团迁徙求生，数字文明何去何从？

宏碁正式进军智能眼镜市场，双线布局AR与AI

安凯微亮相第十届集微大会，解码AI眼镜“第一视角革命”

VR沉浸式体验出圈！上海2026城市低碳游园会启幕，科技赋能绿色生活

AI应用推荐

热门

VR虚拟世界接连关停，社区抱团迁徙求生，数字文明何去何从？

宏碁正式进军智能眼镜市场，双线布局AR与AI

友情链接

推荐

VR虚拟世界接连关停，社区抱团迁徙求生，数字文明何去何从？

宏碁正式进军智能眼镜市场，双线布局AR与AI

安凯微亮相第十届集微大会，解码AI眼镜“第一视角革命”

VR沉浸式体验出圈！上海2026城市低碳游园会启幕，科技赋能绿色生活