可灵AI双料发布引行业震动：O1模型重构创作逻辑，数字人2.0实现5分钟专业演绎

🤖 由文心大模型生成的文章摘要

2025年12月初，快手生态孵化的AIGC核心项目可灵AI接连抛出重磅成果：12月2日，全球首个大一统多模态视频与图像模型“可灵O1”正式全量上线，彻底打破创作工具的模态壁垒；次日，数字人2.0版本火速跟进，将AI数字人视频演绎时长从1分钟提升至5分钟，在体态控制与细节表现上实现跨越式升级。短短48小时内的两次技术发布，不仅展现了可灵AI在视频生成领域的技术沉淀，更标志着国内AIGC创作工具正式进入“高效集成化”新阶段。

“以往创作一条复合视频，需要在文生视频、图生视频、视频剪辑工具间反复切换，现在对着可灵O1说一句话就够了。”这是首批体验用户给出的直观反馈。作为全球首个实现“统一多模态视频生成+编辑”一体化的公开系统，可灵O1的核心突破在于采用全新的Multi-modalvisuallanguage（MVL）理念，将文本描述、静态图片、参考视频等多种输入形式全部纳入统一交互框架，让创作指令的传达更接近自然语言逻辑。

这种“全能理解”能力转化为具体功能时，呈现出极强的实用性。用户上传一张人物写真后，既可以用文字指令“让她在星空下跳古典舞，镜头从远景慢慢推近”生成新视频，也能直接导入一段舞蹈参考视频，要求“保持人物不变，复刻这段动作并换成水墨风格背景”。更关键的是，其搭载的多视角主体构建技术彻底解决了AI创作的“特征漂移”痛点——无论镜头如何运动、场景如何切换，参考图中的人物容貌、服饰细节都能保持高度一致，为连续叙事创作提供了核心支撑。

与当前市场主流产品相比，可灵O1的差异化优势尤为明显。横向对比国内同类工具，阿里通义千问的VL模型仅支持图文理解、字节豆包的视频能力仍依赖外部插件，均未实现原生视频生成；即便与国际知名的RunwayGen-3、Pika等工具相比，可灵O1在对话式编辑、主体一致性保障两大维度也处于领先地位，其“一句话完成局部修改”的功能，如“给视频里的人物加一副复古墨镜，保留背景不变”，无需手动设置关键帧与遮罩，极大降低了专业视频编辑的门槛。

技术落地层面，可灵O1延续了可灵AI“即开即用”的产品策略，目前已在官方App及官网开放免费体验入口，用户可直接生成3-10秒的1080P高清视频。据官方透露，后续将推出分级服务体系，为专业创作者提供去水印、优先生成队列等增值服务，企业用户则可通过API接入实现批量创作与商业授权。

如果说可灵O1解决了“高效创作”的问题，数字人2.0版本则攻克了“专业表达”的难关。作为可灵AI今年9月推出数字人功能后的重大升级，新版本带来三大突破性改变：时长从1分钟延长至5分钟，手部及口型控制精度大幅提升，体态动作与镜头语言的协同性显著优化，使AI数字人彻底摆脱“僵硬感”。

「93913原创内容，转载请注明出处」

可灵AI双料发布引行业震动：O1模型重构创作逻辑，数字人2.0实现5分钟专业演绎

相关文章

阿里巴巴开源创新大模型搜索引擎ZeroSearch，性能超越谷歌搜索且成本大幅降低

OpenAI宣布全新AI发展计划OpenAI for Countries

鸿蒙OS 6重磅推出AI深度研究智能体重构鸿蒙PC智慧办公体验

李飞飞World Labs发布Marble模型：数分钟生成WebXR立体场景，革新3D创作效率

NVIDIA AI Foundry为全球企业构建定制Llama 3.1生成式AI模型

初创公司声称可基于生成式人工智能实现80%软件开发自动化

推荐

视涯科技拟与歌尔签16亿元硅基OLED大单印证AR产业加速放量

Meta加速穿戴布局：四款智能眼镜年内登场同步研发AI智能吊坠

聚焦VR电影创新落地！2026电影科技创新座谈会无锡召开深耕沉浸式影视产业化

9部VR电影无锡首秀！沉浸式观影开启新纪元

AI应用推荐

热门

视涯科技拟与歌尔签16亿元硅基OLED大单印证AR产业加速放量

Meta加速穿戴布局：四款智能眼镜年内登场同步研发AI智能吊坠

友情链接

推荐

视涯科技拟与歌尔签16亿元硅基OLED大单印证AR产业加速放量

Meta加速穿戴布局：四款智能眼镜年内登场同步研发AI智能吊坠

聚焦VR电影创新落地！2026电影科技创新座谈会无锡召开深耕沉浸式影视产业化

9部VR电影无锡首秀！沉浸式观影开启新纪元