音频同步与视频编辑！腾讯混元开源一致性视频生成工具HunyuanCustom

2025-05-09 11:21 · 来源： AIbase基地

腾讯开源的一致性视频生成工具 “HunyuanCustom”，该模型不仅能生成生动的视频内容，还能实现音频与口型的同步。这一创新技术的发布，标志着在深度伪造视频领域的一次重要进步。

一图生成，深度伪造不再遥远

HunyuanCustom 的最大亮点在于用户只需提供一张图像，就能创造出深度伪造风格的视频。这一功能可以简化视频制作流程，用户不再需要多张图片作为参考，极大地提升了视频内容生成的便利性。

HunyuanCustom 不仅限于简单的视频生成。该模型还具备处理多种场景的能力，包括单一角色的模拟和虚拟试穿。用户可以将单个角色与不同的物体结合，创造出丰富多样的场景。这一特性将为游戏开发、虚拟试衣等领域带来新的可能性。

音频同步，提升沉浸感

在音频方面，HunyuanCustom 利用了复杂的 LatentSync 系统，实现了音频与口型的精准同步。这一技术的实现，使得视频中的角色在说话时，其嘴部动作与发出的声音完美匹配，从而提升了观众的沉浸感和真实性。

虽然目前尚未推出英文示例，但已有的展示效果表明，该技术的表现相当优秀，未来有望在更多语言中得到应用。

视频编辑，拓展应用边界

HunyuanCustom 还具备强大的视频编辑功能。通过视频到视频（V2V）编辑，用户可以智能地替换现有视频中的部分内容，仅需一张参考图像即可完成。这一功能为用户提供了更多创意空间，使得视频编辑过程更加简便高效。

在演示中，可以看到系统如何通过遮罩技术，仅对目标对象进行替换，而不影响周围环境，达到了良好的整合效果。这一特性将吸引大量创作者探索其在内容制作中的应用。

HunyuanCustom 的推出，为深度伪造技术的应用开辟了新的视野。尽管在某些方面仍有提升空间，但其独特的功能和应用潜力无疑将推动视频制作的创新。随着这一技术的进一步发展，我们期待在创意产业中见证更多精彩的作品。

官网：https://aivideo.hunyuan.tencent.com/

相关推荐

腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造，支持文本、图像、音频等多模态输入，能生成高质量定制视频。主要功能包括：单/多主体视频生成、视频配音、局部编辑等，在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景，如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源，其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

多模态视频生成腾讯混元 HunyuanCustom
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品：1）Seedance 1.0 lite视频生成模型，支持5-10秒480P/720P视频生成，具备影视级画质和生成速度优势，适用于电商广告、影视创作等场景；2）豆包1.5视觉深度思考模型，仅20B参数但具备多模态理解能力，在60项基准测试中38项达SOTA水平；3）升级版豆包音乐模型，新增英文歌曲创作功能，并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

AI模型升级视频生成技术火山引擎发布
对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3，对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频，还能为人物对话、鸟鸣等场景自动匹配音效，实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户，月费249.99美元，并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是，谷歌在AI图像生成领域并非一帆风顺，此前Imagen 3曾因生成含历史错误的图像引发争议。

谷歌视频生成模型 Veo
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
腾讯混元上线“游戏工业级”视觉生成平台：效率最高提升数十倍！

腾讯5月20日发布混元游戏视觉生成平台，该平台基于混元大模型打造，专为游戏行业内容生产设计。平台能快速生成高质量游戏素材和概念草图，支持多种主流游戏风格，实现创作闭环。通过AI技术，可将整套流程压缩至一个工作页面，用户只需输入提示词即可获得灵感参考图，并直接绘制草图和生成标准三视图及360度旋转演示视频，效率最高提升数十倍。平台还具备角色多视图自动生成能力，上传一张正面图即可自动生成标准三视图和360度展示视频，角色一致性最高达99%。腾讯表示，该平台将显著改善灵感迟滞、多视图缺失等常见问题。

腾讯混元游戏 AI内容引擎
荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

本文汇总了近期AI领域的重要动态：1)美团将推出对话式编程工具"NoCode"；2)火山引擎发布大模型生态平台MCP Servers；3)B站开源动画视频生成模型Index-AniSora；4)字节跳动升级AI耳机Ola Friend的英语学习功能；5)GitHub推出AI编程助手自动修复代码漏洞；6)腾讯混元上线游戏视觉生成平台；7)微软将VS Code转型为开源AI编辑器；8)Windows 11原生支持MCP协议；9)Anthropic发布AI代理开发指南；10)谷歌推出编程AI代理Jules；11)NotebookLM推出iOS版；12)Genspark创3600万美元ARR纪录；13)Bright Data发布开源MCP服务器；14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

人工智能 AI产品编程工具
荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

本文报道了AI领域最新动态：1)阿里通义万相开源视频编辑统一模型VACE；2)OpenAI发布GPT-4.1增强编码能力；3)Stability AI推出超轻量341M文字转语音模型；4)快手可灵视频生成模型占据30%市场份额；5)微软WizardLM团队整体加入腾讯混元大模型研发体系；6)腾讯宣布混元图像2.0将于5月16日发布；7)上海成立人工智能标识生态联盟；8)Lightricks发布13B参数视频生成模型LTX-Video；9)谷歌DeepMind推出AlphaEvolve优化AI训练速度；10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

人工智能视频编辑开源项目
你的手机镜头可变身“自然翻译器” 腾讯“野朋友计划”联合腾讯混元上线物种识别AI

腾讯SSV技术公益团队推出"野朋友计划"AI物种识别功能，基于混元大模型实现"识别+交互"闭环。用户通过小程序上传动植物照片，不仅能获得物种信息，还能通过对话了解生态知识、参与保护行动。该功能连接公众与专业机构，构建"技术-机构-用户"生态保护链条，助力全民参与生物多样性保护。同时，项目将联合科研机构构建"公众可读的物种百科库&qu

野朋友计划混元大模型腾讯SSV技术公益团队
荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

本文介绍了AI领域多项最新进展：1)B站团队推出开源动漫视频生成模型AniSora，支持多种风格创作；2)OpenAI发布编程智能体Codex，提升开发效率；3)Google测试AI问答功能AI Mode；4)ChatGPT将整合MCP协议，支持第三方AI服务对接；5)阿里推出ZeroSearch框架，减少对搜索引擎的依赖；6)Stability AI与Arm合作推出手机端音频生成AI；7)Qwen发布WorldPM系列大模型；8)GPT-5将整合多款产品功能；9)ListenHub上线AI播客生成工具；10)QQ浏览器升级为AI浏览器；11)数学建模AI助手MathModelAgent面世；12)GenSpark推出全球首个智能下载代理；13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

AI日报动漫视频生成 AniSora

今日大家都在搜的词：

热文

3 天
7天

音频同步与视频编辑！腾讯混元开源一致性视频生成工具HunyuanCustom

腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

腾讯混元上线“游戏工业级”视觉生成平台：效率最高提升数十倍！

荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

你的手机镜头可变身“自然翻译器” 腾讯“野朋友计划”联合腾讯混元上线物种识别AI

荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

今日大家都在搜的词：

热文

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

Remixpoint加码比特币押注，追投700万美元，股票上涨5.26%

虚拟币交易变抢劫？投资者直接以“绑架、折磨”进行勒索

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

站长商机