腾讯混元发布并开源语音数字人模型HunyuanVideo-Avatar

🤖 由文心大模型生成的文章摘要

5月28日，腾讯混元在人工智能领域再推重磅成果，正式发布并开源语音数字人模型HunyuanVideo-Avatar。这一创新性模型融合了腾讯混元视频大模型（HunyuanVideo）的先进视觉处理能力与腾讯音乐天琴实验室MuseV技术在音频处理方面的优势，一经推出便引发行业内外的高度关注。

该模型的显著优势之一在于其对多种景别的支持。无论是聚焦人物面部表情的头肩景别，展示人物上半身肢体语言的半身景别，还是能够全方位呈现人物动作姿态的全身景别，HunyuanVideo-Avatar均能轻松驾驭。这为视频创作者提供了丰富的选择空间，无论是制作短视频、长视频，还是进行直播等场景，都能找到最适合的表现形式。

在风格与场景多样性方面，HunyuanVideo-Avatar同样表现卓越。它支持多风格生成，无论是追求逼真写实的现实风格，充满科技感的赛博朋克风格，具有浓厚艺术气息的中国水墨画风格，或是深受年轻人喜爱的2D动漫风格等，都能精准生成。同时，该模型还突破了传统数字人模型仅针对人类形象的局限，实现多物种支持，机器人、动物等形象在其驱动下也能生动“说话”“表演”。不仅如此，双人场景的支持使得数字人之间的互动成为可能，极大地拓展了视频内容的创作边界，为视频创作者提供了前所未有的创作自由度，让许多以往难以实现的创意能够轻松落地。

从技术实现角度来看，用户使用HunyuanVideo-Avatar模型时，操作流程简单便捷。只需上传人物图像与对应的音频，模型便会立即启动其强大的理解与生成能力。它能够精准解析图片信息，识别出人物所处的环境，如在繁华都市街道、宁静的乡村田园或是充满科技感的未来实验室等；同时，对音频所蕴含的情感也能深度洞察，无论是欢快愉悦的情绪、悲伤低沉的情感，还是激昂振奋的表达等，都能被模型捕捉。基于这些理解，模型让图中人物自然地说话或唱歌，生成的视频中人物表情自然生动，唇形与语音完美同步，全身动作协调流畅，仿佛人物真正“活”了过来，为观众带来高度真实且沉浸式的视觉体验。

在实际应用场景中，HunyuanVideo-Avatar展现出了巨大的潜力。在短视频创作领域，创作者能够利用该模型快速生成各种风格独特、内容新颖的短视频，提升内容产出效率与质量，吸引更多观众关注。电商行业中，商家可以借助模型制作产品介绍视频，通过生动形象的数字人展示产品特点与优势，增强消费者的购买意愿；在广告制作方面，双人场景等功能可以帮助制作出更具创意和吸引力的多人互动广告，提升广告的传播效果。目前，该技术已在腾讯音乐听歌陪伴、长音频播客以及唱歌MV等多场景中得到应用，为用户带来了全新的娱乐体验。例如在听歌陪伴场景中，数字人能够根据歌曲风格和情感，做出相应的表情与动作，与用户产生更自然的互动；在唱歌MV制作中，用户可以将自己的形象上传，生成具有专业水准的个性化MV。

「93913原创内容，转载请注明出处」

腾讯混元发布并开源语音数字人模型HunyuanVideo-Avatar

相关文章

中国已准备好在人工智能大型模型领域参与全球竞争

Anthropic推出先进AI混合推理模型

OpenAI正在开发全新AI图像检测工具

中国科技高管讨论人工智能大型语言模型如何塑造企业

OpenAI推出成本更省的小型AI模型GPT-4o mini

福建发布《元宇宙产业发展行动计划》，计划到2026年产业规模超过2000亿元

推荐

Apple Vision Pro更新传闻：芯片与上市时间引争议，未来规划渐清晰

93913产业周报│7月7日-7月13日XR产业动态回顾

93913产业周报│7月7日-7月13日AI产业动态回顾

小米AI智能眼镜15天销量超8万副，销量目标上调至50万副

AI应用推荐

热门

Apple Vision Pro更新传闻：芯片与上市时间引争议，未来规划渐清晰

93913产业周报│7月7日-7月13日XR产业动态回顾

友情链接

推荐

Apple Vision Pro更新传闻：芯片与上市时间引争议，未来规划渐清晰

93913产业周报│7月7日-7月13日XR产业动态回顾

93913产业周报│7月7日-7月13日AI产业动态回顾

小米AI智能眼镜15天销量超8万副，销量目标上调至50万副