DeepSeek发布多模态大模型 推出视觉原语创新推理框架

🤖 由 文心大模型 生成的文章摘要

DeepSeek在GitHub平台正式发布多模态大模型,并同步公开技术报告,提出基于视觉原语的全新推理范式,破解多模态AI在空间推理与精准指代上的核心瓶颈。

技术报告指出,当前主流多模态模型存在参照鸿沟:自然语言模糊性难以对复杂空间布局提供精确指引,导致高严谨性任务易出现逻辑错误。DeepSeek创新将点、边界框等空间标记定义为思维基本单元,把视觉原语直接融入推理过程,让模型可精准锚定图像物理坐标,实现 “边推理、边精准指代”。

该模型采用高度优化架构,视觉标记效率突出,在模型规模更紧凑、图像标记预算更低的条件下,在计数、空间推理等复杂任务上,性能可对标GPT-5.4、Claude‑Sonnet‑4.6、Gemini‑3‑Flash等国际前沿模型。

此项技术为高效、可扩展的System‑2级多模态智能提供了新方向,将显著提升 AI在视觉理解、空间分析等场景的可靠性与实用性。

「93913原创内容,转载请注明出处」