腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

2025-05-28 13:40 · 来源： AIbase基地

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。

HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。用户只需上传一张人物图像和相应的音频，模型便能自动分析音频中的情感和人物所处环境。例如，如果上传一张在海滩上弹吉他的女性的照片，并搭配抒情音乐，模型将自动生成一段该女性在弹唱的动态视频，展现自然的表情、唇形同步及全身动作。

适用广泛的应用场景

这一技术的应用场景非常广泛，涵盖短视频创作、电商广告等多种领域。HunyuanVideo-Avatar 能够生成各种场景下的对话、表演等视频片段，极大地降低了视频制作的时间和成本。无论是快速制作产品介绍视频，还是进行多人互动广告，HunyuanVideo-Avatar 都能提供出色的支持。

业内领先的效果

在技术方面，HunyuanVideo-Avatar 展现了显著的优势。与传统工具相比，HunyuanVideo-Avatar 不仅支持头部驱动，还能实现半身和全身场景的表现，提升视频的真实感和表现力。同时，模型在主体一致性和音画同步方面的表现超越了多种开闭源方案，处于业内顶尖水平。

多样化的风格支持

HunyuanVideo-Avatar 支持多种风格、物种和多人场景，包括赛博朋克、2D 动漫和中国水墨画等。创作者可以轻松上传卡通角色或虚拟形象，生成风格化的动态视频，满足动漫、游戏等领域的创作需求。此外，在多人互动场景中，模型能够精准驱动多个角色，确保各角色的唇形、表情和动作与音频完美同步，实现自然的互动。

这一切的背后是腾讯混元团队与腾讯音乐天琴实验室共同研发的技术创新，包括角色图像注入模块、多模态扩散 Transformer 架构、音频情感模块和面部感知音频适配器等，确保了视频的动态性和角色一致性。

HunyuanVideo-Avatar 的单主体能力已在腾讯混元官网上线，用户可以通过 “模型广场” 体验这一技术。目前支持上传不超过14秒的音频生成视频，未来还将逐步推出更多功能。

体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
项目主页:https://hunyuanvideo-avatar.github.io
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

相关推荐

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

本文介绍了AI领域最新动态：1)腾讯开源Hunyuan-GameCraft框架，可快速生成高质量游戏视频；2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext；3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型；4)Kimi将推出PPT生成功能；5)阿里1688将上线"诚信通AI版"会员服务；6)苹果智能家居中心推迟至2026年发布；7)万兴科技接入GPT-5；8)全球AI独角兽达498家，总估值2.7万亿美元；9)谷歌为Slides和

AI 游戏视频生成腾讯混元
免费使用！腾讯地图已接入DeepSeek-V3.1

DeepSeek V3.1于2025年8月21日发布并开源，腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升：思考效率更高，响应更快；上下文理解更强，支持多轮连贯对话；智能体调用更精准，尤其在中文网页理解和跨领域搜索方面表现突出。依托升级，AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务，让导航升级为全程智能生活陪伴。

DeepSeek V3.1 腾讯地图
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

本文对比三款自动化浏览器控制工具：NXNOS、Agent+TARS和Fellou。从企业背景、技术架构、稳定性实测和硬件成本四个维度分析，NXNOS在复杂场景容错和长期运行稳定性上表现突出，硬件门槛低；Agent+TARS侧重跨设备自动化但资源需求高；Fellou适合轻量任务但复杂场景适配弱。建议用户根据场景复杂度、并发需求和预算选择，无绝对优劣，只有适用性差异。

数字经济自动化浏览器企业效率
阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今晚，阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V，并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程，仅需提供一张静态图片和一段音频，模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成，不止嘴动，手势、表情、姿态都能动。

视频生成模型通义万相数字人视频
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
微软发布AI截图工具，截图一键转PPT

微软电脑管家推出全新“智能圈选”功能，通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域，即可一键完成文字提取、多语言翻译及PPT转换等操作，大幅提升办公和学习效率。该功能支持100多种语言，保留原始格式，并能智能修复遮挡内容，彻底改变了传统截图处理方式。

微软电脑管家智能圈选截图处理
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
天虹积分“地图”再创新，会员全域服务再升级

文章探讨零售服务中技术支撑的重要性，强调两个关键要素：一是全面构建商品流通渠道，包括线上线下门店及外部平台合作；二是建立覆盖全渠道的会员权益体系，如积分场景。指出当前积分服务存在跨平台覆盖不足问题，影响用户体验和数据整合，并介绍彩虹数科通过“无感积分”和AI拍小票积分等技术方案提升效率，实现会员服务的全域覆盖，优化购物全流程体验。

零售服务商品流通渠道会员权益体系

今日大家都在搜的词：

热文

3 天
7天

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

免费使用！腾讯地图已接入DeepSeek-V3.1

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

微软发布AI截图工具，截图一键转PPT

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

天虹积分“地图”再创新，会员全域服务再升级

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小米汽车8月交付量超3万台全年交付量有望冲击42万

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

零跑汽车8月交付57066台增长超88%

苹果上架翻新版Apple Pencil Pro售价849元

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

站长商机