Hunyuan Custom最大的亮点,在于它巧妙融合了文本、图像、音频、视频等多模态输入生成视频的能力,堪称一款具备超强控制力与出色生成质量的智能视频创作利器。腾讯方面介绍,Hunyuan Custom模型具备多种实用功能,涵盖单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等。尤为突出的是,其生成的视频与用户输入的参考主体能够达到高度一致的效果。
目前,单主体生成能力已率先开源,并在混元官网上线,用户只需进入“模型广场 – 图生视频 – 参考生视频”板块,即可亲身体验这一功能的魅力。在单主体生成模式下,用户操作极为简便,仅需上传一张包含目标人物或物体的图片,再配上一句文本描述,比如 “他正在遛狗”,Hunyuan Custom便能精准识别出图片中的身份信息,进而在截然不同的动作、服饰与场景设定下,生成连贯且自然的视频内容。
除了单主体生成,Hunyuan Custom在多主体视频生成方面同样表现出色。用户只要分别提供一张人物照片和一张物体照片,例如一包薯片和一名男子的照片,同时输入相应文字描述,如“一名男子正在游泳池旁边,手里拿着薯片进行展示”,该工具就能让这两个主体按照用户要求,自然地出现在生成的视频当中。
值得一提的是,Hunyuan Custom的强大之处远不止于图像与文本的协同配合,它还具备极为强大的扩展能力。在音频驱动(单主体)模式下,用户上传人物图像后,再配上一段音频语音,模型便能生成该人物在任意场景中说话、唱歌或者进行其他音视频同步表演的精彩效果。这一特性使其在数字人直播、虚拟客服、教育演示等众多场景中拥有广泛的应用前景。在视频驱动模式下,Hunyuan Custom支持将图片中的人物或物体自然地替换或插入到任意视频片段内,实现创意植入或场景扩展,助力用户轻松完成视频重构与内容增强。
回顾此前的视频生成模型,大部分主要聚焦于文生视频和图生视频领域。文生视频往往每次都依据文本提示词重新生成,在持续保持人物和场景一致性方面存在较大难度;而图像生成视频模型大多只能实现“让图片动起来”的基本功能,例如上传一张人物照片,最终生成的视频通常局限于在照片的原始服饰、姿态和场景下做出一些简单的固定表情或动作,服装、背景和姿态几乎难以修改。但在许多实际创作场景中,创作者常常期望在保持人物一致的前提下,灵活改变人物所处的环境和动作,显然,此前的视频生成模型无法满足这一需求,而多模态视频生成模型Hunyuan Custom则凭借引入身份增强机制和多模态融合模块,真正达成了 “图像提供身份,文本定义一切” 的创新突破,完美契合了创作者的多样化需求。
凭借强大的功能,Hunyuan Custom能够充分满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户群体以及多元场景的创作需求。在广告场景中,它能够便捷地变换商品背景,助力模特快速更换服装;在电商和客服场景里,可快速、低成本地制作出栩栩如生的数字人商品介绍视频,或者打造特定穿着风格的数字人客服视频;在影视场景中,能快速制作短剧和小故事短视频,为影视创作提供高效支持。