字节跳动发布Doubao‑Seed‑2.0‑lite升级版 豆包首款全模态理解模型上线

🤖 由 文心大模型 生成的文章摘要

字节跳动旗下火山引擎正式发布豆包大模型家族首款全模态理解模型——Doubao‑Seed‑2.0‑lite升级版,已在火山方舟平台上线。该模型首次实现视频、图像、音频、文本的原生统一理解,可处理需“音画结合”判断的复杂任务。

视觉理解方面,新版模型在物理、医疗等高阶学科推理上大幅超越2月发布的Doubao‑Seed‑2.0‑pro,细粒度感知与具身理解等关键领域达到SOTA(业界最优)水平。音频理解支持19个语种精准转写、中英文与其他14个语种互译,可深度捕捉语音情绪、环境声与音乐细节,多项基准测试表现优于Gemini‑3.1‑Pro。

同时,模型Agent、Coding与GUI能力同步升级:对多轮、多步、多约束指令遵循度显著提升,支持长程任务自我拆解与校验,可连续执行跨越25小时的超长任务;Coding能力覆盖前端、3D场景与游戏开发;GUI能力能精准识别界面元素并完成点击、输入等操作,实现端到端任务交付。

本次同步上线的还有Doubao‑Seed‑2.0‑mini全模态版本,思考长度更短、tokens效率更高。在同等算力成本下,Doubao‑Seed‑2.0‑lite成为企业大规模、批量化部署全模态推理任务的高性价比选择。

「93913原创内容,转载请注明出处」