
阿里巴巴中国电商事业群首席科学家、技术总裁郑波在CNCC2025大会上重磅发布淘宝全模态大模型“TStars-Omni”的最新进展,并推出视频生成模型升级版“淘宝星辰・视频生成模型3.0”,系统展现了多模态智能在电商场景的深度落地成果,标志着阿里“AI电商”战略进入实质性落地阶段。
作为淘宝AIGX技术体系的核心支柱,全模态大模型“TStars-Omni”实现了对文本、图像、视频、音频四大输入模态的全面支持,输出覆盖文本与音频形式,构建起对齐人类感官的智能交互体系。郑波在演讲中强调,该模型通过在基座架构、视觉编码器、音频理解及语音合成等关键模块的深度优化,达成了“体量小、吞吐快”的技术优势,综合性能跻身行业第一梯队。现场演示的案例令人瞩目:当用户同时上传冰箱产品图与厨房平面图并提问“能否适配安装”时,模型可快速分析空间尺寸与布局关系,给出“无法直接嵌入”的精准判断,并同步提供调整建议,展现出强大的商品理解与深度推理能力。这一突破意味着电商智能交互从单一关键词匹配迈入多维度场景化理解的新阶段。
此次同步推出的淘宝星辰・视频生成模型3.0,在技术架构上实现重大升级。该模型采用更紧凑的16x16x4时空压缩VAE结构,在大幅提升DIT参数规模的同时保持高效推理性能,配合类别平衡的高品质训练数据与强化后的语义理解模块,使生成内容呈现“动作更灵动、语义更精确、画面更原生”的显著特征。郑波现场展示了其在电商场景的应用闭环:商家仅需上传一件连衣裙的平铺照片,系统即可自动生成虚拟模特、多场景摆拍图,进而生成带转场效果的视频片段,结合虚拟模特讲解功能与自动剪辑技术,全程无需人工干预即可产出完整带货视频,大幅降低中小商家的内容制作门槛与成本。
值得关注的是,这两款新模型的发布是淘宝AIGX技术体系的重要组成部分。郑波在大会上透露,多模态智能已全面赋能淘宝核心业务,其中自研推荐大模型RecGPT已落地手机淘宝“猜你喜欢”信息流,该百亿参数模型可处理10万量级上下文、理解十年用户行为数据,实现数亿商品的全模态认知与世界知识融合推理,数据显示其带动用户点击量增长超16%,加购次数与停留时长均提升超5%。此外,淘宝近期开源的强化学习训练框架ROLL与生成式预估训练框架RecIS,也为行业共享多模态大模型训练技术提供了重要支撑。
郑波在演讲中提出一个重要判断:AI处理问题的复杂度正以每年5-10倍速度增长,错误率年降50%,推理成本每年降低一个数量级,按此趋势狭义AGI有望在未来5-10年实现。对于淘宝而言,自2003年成立以来始终坚持技术与商业双向驱动,在AI时代,多模态智能已成为“万能的淘宝”最重要的技术战略方向。此次发布的两大模型,不仅完善了淘宝从智能交互、内容生成到精准推荐的全链路AI能力,更与此前推出的AI万能搜、AI试穿、AI清单等功能形成协同,构建起“无需独立App、嵌入购物全流程”的AI原生电商体验,既为消费者解决复杂购物需求,也为商家提供降本增效的经营工具,推动电商行业从“流量分配”向“智能匹配”的深层变革。








