多模态融合新突破！腾讯混元Hunyuan Custom开启智能视频创作新纪元

🤖 由文心大模型生成的文章摘要

Hunyuan Custom最大的亮点，在于它巧妙融合了文本、图像、音频、视频等多模态输入生成视频的能力，堪称一款具备超强控制力与出色生成质量的智能视频创作利器。腾讯方面介绍，Hunyuan Custom模型具备多种实用功能，涵盖单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等。尤为突出的是，其生成的视频与用户输入的参考主体能够达到高度一致的效果。

目前，单主体生成能力已率先开源，并在混元官网上线，用户只需进入“模型广场 – 图生视频 – 参考生视频”板块，即可亲身体验这一功能的魅力。在单主体生成模式下，用户操作极为简便，仅需上传一张包含目标人物或物体的图片，再配上一句文本描述，比如 “他正在遛狗”，Hunyuan Custom便能精准识别出图片中的身份信息，进而在截然不同的动作、服饰与场景设定下，生成连贯且自然的视频内容。

除了单主体生成，Hunyuan Custom在多主体视频生成方面同样表现出色。用户只要分别提供一张人物照片和一张物体照片，例如一包薯片和一名男子的照片，同时输入相应文字描述，如“一名男子正在游泳池旁边，手里拿着薯片进行展示”，该工具就能让这两个主体按照用户要求，自然地出现在生成的视频当中。

值得一提的是，Hunyuan Custom的强大之处远不止于图像与文本的协同配合，它还具备极为强大的扩展能力。在音频驱动（单主体）模式下，用户上传人物图像后，再配上一段音频语音，模型便能生成该人物在任意场景中说话、唱歌或者进行其他音视频同步表演的精彩效果。这一特性使其在数字人直播、虚拟客服、教育演示等众多场景中拥有广泛的应用前景。在视频驱动模式下，Hunyuan Custom支持将图片中的人物或物体自然地替换或插入到任意视频片段内，实现创意植入或场景扩展，助力用户轻松完成视频重构与内容增强。

回顾此前的视频生成模型，大部分主要聚焦于文生视频和图生视频领域。文生视频往往每次都依据文本提示词重新生成，在持续保持人物和场景一致性方面存在较大难度；而图像生成视频模型大多只能实现“让图片动起来”的基本功能，例如上传一张人物照片，最终生成的视频通常局限于在照片的原始服饰、姿态和场景下做出一些简单的固定表情或动作，服装、背景和姿态几乎难以修改。但在许多实际创作场景中，创作者常常期望在保持人物一致的前提下，灵活改变人物所处的环境和动作，显然，此前的视频生成模型无法满足这一需求，而多模态视频生成模型Hunyuan Custom则凭借引入身份增强机制和多模态融合模块，真正达成了 “图像提供身份，文本定义一切” 的创新突破，完美契合了创作者的多样化需求。

凭借强大的功能，Hunyuan Custom能够充分满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户群体以及多元场景的创作需求。在广告场景中，它能够便捷地变换商品背景，助力模特快速更换服装；在电商和客服场景里，可快速、低成本地制作出栩栩如生的数字人商品介绍视频，或者打造特定穿着风格的数字人客服视频；在影视场景中，能快速制作短剧和小故事短视频，为影视创作提供高效支持。

「93913原创内容，转载请注明出处」

多模态融合新突破！腾讯混元Hunyuan Custom开启智能视频创作新纪元

相关文章

微软称OpenAI现在是人工智能和搜索领域的竞争对手

字节跳动聊天机器人豆包添加视频生成功能

百度AI大模型文心4.5将于3月16日推出

微软发布BitNet b1.58 2B4T，以低精度架构实现高效大型语言模型

苹果发布开源人工智能模型

OpenAI计划整合模型推出GPT-5，功能升级引发期待

推荐

XR风暴将至！DIC国际XR论坛与虚拟现实展区正式启动，高规格与会嘉宾招募中

再添300万美元众筹资金，Virtuix估值跃至2亿美元，开启VR领域新征程

苹果拟借生成式AI加速定制芯片设计

颠覆充电体验！苹果带屏充电站赋能智能眼镜等未来可穿戴配件

AI应用推荐

热门

XR风暴将至！DIC国际XR论坛与虚拟现实展区正式启动，高规格与会嘉宾招募中

再添300万美元众筹资金，Virtuix估值跃至2亿美元，开启VR领域新征程

友情链接

推荐

XR风暴将至！DIC国际XR论坛与虚拟现实展区正式启动，高规格与会嘉宾招募中

再添300万美元众筹资金，Virtuix估值跃至2亿美元，开启VR领域新征程

苹果拟借生成式AI加速定制芯片设计

颠覆充电体验！苹果带屏充电站赋能智能眼镜等未来可穿戴配件