DeepSeek发布多模态大模型推出视觉原语创新推理框架

🤖 由文心大模型生成的文章摘要

DeepSeek在GitHub平台正式发布多模态大模型，并同步公开技术报告，提出基于视觉原语的全新推理范式，破解多模态AI在空间推理与精准指代上的核心瓶颈。

技术报告指出，当前主流多模态模型存在参照鸿沟：自然语言模糊性难以对复杂空间布局提供精确指引，导致高严谨性任务易出现逻辑错误。DeepSeek创新将点、边界框等空间标记定义为思维基本单元，把视觉原语直接融入推理过程，让模型可精准锚定图像物理坐标，实现 “边推理、边精准指代”。

该模型采用高度优化架构，视觉标记效率突出，在模型规模更紧凑、图像标记预算更低的条件下，在计数、空间推理等复杂任务上，性能可对标GPT-5.4、Claude‑Sonnet‑4.6、Gemini‑3‑Flash等国际前沿模型。

此项技术为高效、可扩展的System‑2级多模态智能提供了新方向，将显著提升 AI在视觉理解、空间分析等场景的可靠性与实用性。

「93913原创内容，转载请注明出处」

相关文章