5月28日,腾讯混元在人工智能领域再推重磅成果,正式发布并开源语音数字人模型HunyuanVideo-Avatar。这一创新性模型融合了腾讯混元视频大模型(HunyuanVideo)的先进视觉处理能力与腾讯音乐天琴实验室MuseV技术在音频处理方面的优势,一经推出便引发行业内外的高度关注。
该模型的显著优势之一在于其对多种景别的支持。无论是聚焦人物面部表情的头肩景别,展示人物上半身肢体语言的半身景别,还是能够全方位呈现人物动作姿态的全身景别,HunyuanVideo-Avatar均能轻松驾驭。这为视频创作者提供了丰富的选择空间,无论是制作短视频、长视频,还是进行直播等场景,都能找到最适合的表现形式。
在风格与场景多样性方面,HunyuanVideo-Avatar同样表现卓越。它支持多风格生成,无论是追求逼真写实的现实风格,充满科技感的赛博朋克风格,具有浓厚艺术气息的中国水墨画风格,或是深受年轻人喜爱的2D动漫风格等,都能精准生成。同时,该模型还突破了传统数字人模型仅针对人类形象的局限,实现多物种支持,机器人、动物等形象在其驱动下也能生动“说话”“表演”。不仅如此,双人场景的支持使得数字人之间的互动成为可能,极大地拓展了视频内容的创作边界,为视频创作者提供了前所未有的创作自由度,让许多以往难以实现的创意能够轻松落地。
从技术实现角度来看,用户使用HunyuanVideo-Avatar模型时,操作流程简单便捷。只需上传人物图像与对应的音频,模型便会立即启动其强大的理解与生成能力。它能够精准解析图片信息,识别出人物所处的环境,如在繁华都市街道、宁静的乡村田园或是充满科技感的未来实验室等;同时,对音频所蕴含的情感也能深度洞察,无论是欢快愉悦的情绪、悲伤低沉的情感,还是激昂振奋的表达等,都能被模型捕捉。基于这些理解,模型让图中人物自然地说话或唱歌,生成的视频中人物表情自然生动,唇形与语音完美同步,全身动作协调流畅,仿佛人物真正“活”了过来,为观众带来高度真实且沉浸式的视觉体验。
在实际应用场景中,HunyuanVideo-Avatar展现出了巨大的潜力。在短视频创作领域,创作者能够利用该模型快速生成各种风格独特、内容新颖的短视频,提升内容产出效率与质量,吸引更多观众关注。电商行业中,商家可以借助模型制作产品介绍视频,通过生动形象的数字人展示产品特点与优势,增强消费者的购买意愿;在广告制作方面,双人场景等功能可以帮助制作出更具创意和吸引力的多人互动广告,提升广告的传播效果。目前,该技术已在腾讯音乐听歌陪伴、长音频播客以及唱歌MV等多场景中得到应用,为用户带来了全新的娱乐体验。例如在听歌陪伴场景中,数字人能够根据歌曲风格和情感,做出相应的表情与动作,与用户产生更自然的互动;在唱歌MV制作中,用户可以将自己的形象上传,生成具有专业水准的个性化MV。