首页 > AI头条  > 正文

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频,让图中的主角说话唱。

2025-05-28 13:40 · 来源: AIbase基地

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型,并将其开源。这一技术能够仅凭一张图片和一段音频,生成自然、真实的数字人说话或唱歌视频,标志着短视频创作进入了全新阶段。

image.png


HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。用户只需上传一张人物图像和相应的音频,模型便能自动分析音频中的情感和人物所处环境。例如,如果上传一张在海滩上弹吉他的女性的照片,并搭配抒情音乐,模型将自动生成一段该女性在弹唱的动态视频,展现自然的表情、唇形同步及全身动作。

image.png

适用广泛的应用场景

这一技术的应用场景非常广泛,涵盖短视频创作、电商广告等多种领域。HunyuanVideo-Avatar 能够生成各种场景下的对话、表演等视频片段,极大地降低了视频制作的时间和成本。无论是快速制作产品介绍视频,还是进行多人互动广告,HunyuanVideo-Avatar 都能提供出色的支持。

业内领先的效果

在技术方面,HunyuanVideo-Avatar 展现了显著的优势。与传统工具相比,HunyuanVideo-Avatar 不仅支持头部驱动,还能实现半身和全身场景的表现,提升视频的真实感和表现力。同时,模型在主体一致性和音画同步方面的表现超越了多种开闭源方案,处于业内顶尖水平。

多样化的风格支持

HunyuanVideo-Avatar 支持多种风格、物种和多人场景,包括赛博朋克、2D 动漫和中国水墨画等。创作者可以轻松上传卡通角色或虚拟形象,生成风格化的动态视频,满足动漫、游戏等领域的创作需求。此外,在多人互动场景中,模型能够精准驱动多个角色,确保各角色的唇形、表情和动作与音频完美同步,实现自然的互动。

这一切的背后是腾讯混元团队与腾讯音乐天琴实验室共同研发的技术创新,包括角色图像注入模块、多模态扩散 Transformer 架构、音频情感模块和面部感知音频适配器等,确保了视频的动态性和角色一致性。

HunyuanVideo-Avatar 的单主体能力已在腾讯混元官网上线,用户可以通过 “模型广场” 体验这一技术。目前支持上传不超过14秒的音频生成视频,未来还将逐步推出更多功能。

  • 体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

  • 项目主页:https://hunyuanvideo-avatar.github.io

  • Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar


  • 相关推荐
  • AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放

    本文汇总了AI领域最新动态:1)腾讯开源数字人模型HunyuanVideo-Avatar,支持图像转视频创作;2)Trae国际版开启付费订阅,首月3美元;3)Claude网页搜索功能向免费用户开放;4)印度AI初创Builder.ai破产,亏损超5亿美元;5)腾讯元宝接入微信读书平台;6)快手计划加大AI投入但预计影响利润率;7)Mistral推出智能代理API;8)Claude移动端上线语音对话测试版;9)OpenAI拟推ChatGPT第三方登录功能;10)掘金发布AI项目一键部署工具;11)多模态模型视觉推理能力评估显示准确率仅25.8%;12)中石油发布3000亿参数昆仑大模型,推动油气产业智能化。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 腾讯AI数字人AvaMo落地商用,百度/微美全息加速虚拟人生态闭环构建

    腾讯与Offshore公司达成战略合作,推出面向日本市场的AI数字人视频生成服务"AvaMo"。该服务基于腾讯云智能数字人技术,仅需1-3分钟视频样本即可创建高保真数字人,支持实时交互,能将30秒视频制作时间从传统的12小时压缩至15分钟。同时,百度也在数字人领域发力,展示手语数字人、直播数字人等应用案例。我国数字人产业生态日益完善,相关企业已达114.4万家。微美全息等企业通过整合AI、计算机视觉等技术,显著降低商业化门槛,推动数字人在社交、娱乐等场景的个性化应用。随着生成式AI技术发展,数字人制作效率和多样性显著提升,用户可打造更具个性化的数字产品。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 腾讯混元上线“游戏工业级”视觉生成平台:效率最高提升数十倍!

    腾讯5月20日发布混元游戏视觉生成平台,该平台基于混元大模型打造,专为游戏行业内容生产设计。平台能快速生成高质量游戏素材和概念草图,支持多种主流游戏风格,实现创作闭环。通过AI技术,可将整套流程压缩至一个工作页面,用户只需输入提示词即可获得灵感参考图,并直接绘制草图和生成标准三视图及360度旋转演示视频,效率最高提升数十倍。平台还具备角色多视图自动生成能力,上传一张正面图即可自动生成标准三视图和360度展示视频,角色一致性最高达99%。腾讯表示,该平台将显著改善灵感迟滞、多视图缺失等常见问题。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • RTX 5060/Ti重启黑屏有救了!NVIDIA发布紧急固件更新

    快科技5月25日消息,NVIDIA近期针对RTX 5060和RTX 5060 Ti显卡发布了一项紧急固件更新,旨在解决部分用户在重启系统时遇到的黑屏问题。这一问题自RTX 5060系列显卡发布以来一直困扰着部分用户,尤其是在系统重启时,显卡无法正常显示图像,导致用户无法正常使用。此次更新并非通过驱动程序发布,而是直接对显卡的vBIOS进行更新,NVIDIA强调,只有遇到黑屏问题的用户才需要更新固件,正常使用的设备无需进行此操作。NVIDIA的技术文档显示,黑屏问题可能是由于特定主板的BIOS/UEFI版本与新显卡的兼容性冲突所致。如果用户的主板不支持UEFI启

  • 你的手机镜头可变身“自然翻译器” 腾讯“野朋友计划”联合腾讯混元上线物种识别AI

    腾讯SSV技术公益团队推出"野朋友计划"AI物种识别功能,基于混元大模型实现"识别+交互"闭环。用户通过小程序上传动植物照片,不仅能获得物种信息,还能通过对话了解生态知识、参与保护行动。该功能连接公众与专业机构,构建"技术-机构-用户"生态保护链条,助力全民参与生物多样性保护。同时,项目将联合科研机构构建"公众可读的物种百科库&qu

  • Intel至强6处理器又上新了:与NVIDIA AI GPU珠联璧合

    英特尔推出三款至强6系列AI专用处理器,采用P-Core性能核设计,支持PCT和SST-TF睿频技术,最高128核。新品专为AI系统优化,能动态分配CPU资源,显著提升GPU在高强度AI运算中的性能。其中6776P处理器已用于NVIDIA最新DGX B300 AI加速系统。新品还支持MRDIMM内存、CXL技术,PCIe通道数增加20%,并具备AMX高级矩阵指令集和FP16精度运算能力,专为最大化系统稳定性和AI工作负载设计。

今日大家都在搜的词: