
2025年12月初,快手生态孵化的AIGC核心项目可灵AI接连抛出重磅成果:12月2日,全球首个大一统多模态视频与图像模型“可灵O1”正式全量上线,彻底打破创作工具的模态壁垒;次日,数字人2.0版本火速跟进,将AI数字人视频演绎时长从1分钟提升至5分钟,在体态控制与细节表现上实现跨越式升级。短短48小时内的两次技术发布,不仅展现了可灵AI在视频生成领域的技术沉淀,更标志着国内AIGC创作工具正式进入“高效集成化”新阶段。
“以往创作一条复合视频,需要在文生视频、图生视频、视频剪辑工具间反复切换,现在对着可灵O1说一句话就够了。”这是首批体验用户给出的直观反馈。作为全球首个实现“统一多模态视频生成+编辑”一体化的公开系统,可灵O1的核心突破在于采用全新的Multi-modalvisuallanguage(MVL)理念,将文本描述、静态图片、参考视频等多种输入形式全部纳入统一交互框架,让创作指令的传达更接近自然语言逻辑。
这种“全能理解”能力转化为具体功能时,呈现出极强的实用性。用户上传一张人物写真后,既可以用文字指令“让她在星空下跳古典舞,镜头从远景慢慢推近”生成新视频,也能直接导入一段舞蹈参考视频,要求“保持人物不变,复刻这段动作并换成水墨风格背景”。更关键的是,其搭载的多视角主体构建技术彻底解决了AI创作的“特征漂移”痛点——无论镜头如何运动、场景如何切换,参考图中的人物容貌、服饰细节都能保持高度一致,为连续叙事创作提供了核心支撑。
与当前市场主流产品相比,可灵O1的差异化优势尤为明显。横向对比国内同类工具,阿里通义千问的VL模型仅支持图文理解、字节豆包的视频能力仍依赖外部插件,均未实现原生视频生成;即便与国际知名的RunwayGen-3、Pika等工具相比,可灵O1在对话式编辑、主体一致性保障两大维度也处于领先地位,其“一句话完成局部修改”的功能,如“给视频里的人物加一副复古墨镜,保留背景不变”,无需手动设置关键帧与遮罩,极大降低了专业视频编辑的门槛。
技术落地层面,可灵O1延续了可灵AI“即开即用”的产品策略,目前已在官方App及官网开放免费体验入口,用户可直接生成3-10秒的1080P高清视频。据官方透露,后续将推出分级服务体系,为专业创作者提供去水印、优先生成队列等增值服务,企业用户则可通过API接入实现批量创作与商业授权。
如果说可灵O1解决了“高效创作”的问题,数字人2.0版本则攻克了“专业表达”的难关。作为可灵AI今年9月推出数字人功能后的重大升级,新版本带来三大突破性改变:时长从1分钟延长至5分钟,手部及口型控制精度大幅提升,体态动作与镜头语言的协同性显著优化,使AI数字人彻底摆脱“僵硬感”。










