首页 > 业界 > 关键词  > 多模态视频生成最新资讯  > 正文

腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

2025-05-09 13:05 · 稿源: 快科技

快科技5月9日消息,腾讯混元宣布今天正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom

据悉,该模型基于混元视频生成大模型(HunyuanVideo)打造,主体一致性效果超过现有的开源方案。

据介绍,HunyuanCustom融合文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具

腾讯表示,HunyuanCustom模型能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,其生成的视频与用户输入的参考主体能保持高度一致。

在部分场景下,创作者希望保持人物一致的情况下,改变人物所在的环境和动作。

但此前的视频生成模型都无法实现。

而HunyuanCustom通过引入身份增强机制和多模态融合模块,真正实现图像提供身份,文本定义一切”。

HunyuanCustom可以满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户和场景的需求。

比如,在广告场景中,可以快捷变换商品背景、模特可以快速换衣服;在电商和客服场景中,可以快速低成本制作出生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频;在影视场景中,快速制作短剧和小故事短视频。

此外,通过业内领先的主体一致性建模能力,HunyuanCustom在单人、非人物体、多主体交互等多种场景,都能保持身份特征在视频全程的一致性与连贯性。人物不会变脸”,物体不会漂移”。

目前,单主体生成能力已经开源并在混元官网上线,用户可以在模型广场-图生视频-参考生视频”中体验,其他能力将于5月内陆续对外开源。

单主体生成能力下,用户只需上传一张目标人物或物体的图片,并提供一句如他正在遛狗”的文本描述,Hunyuan Custom就能在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

在多主体视频的生成中,用户提供一张人物和一张物体的照片,并输入文字描述,即可能让这两个主体按要求出现在视频里。而Hunyuan Custom不止于图像和文本的配合,还具备强大的扩展能力。

在音频驱动(单主体)模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。

在视频驱动模式下,Hunyuan Custom支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。

举报

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 长视频自己的音乐节:从一个人刷片,到七万人狂欢

    当夕阳余晖洒下,毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现,所有台下的合唱观众,感受到了一种强烈的共鸣。 同一刻、在一起,体验同一种情绪,成了用户与腾讯视频之间的「独家记忆」。 这是国内长视频平台首次把音乐节与内容紧密结合,通过一场线下活动,腾讯视频想要回应一个期待:为私密的、个人的线上观影行为,制造一种「共同在场感」。 无�

  • 首超长视频,只是红果的起点

    红果,又一次创造历史。 Questmobile的数据显示,抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿,同比增长179%,并超过2亿月活的优酷。 这意味着,短剧APP第一次超越长视频APP。 近年来,“爱优腾”对短剧的态度有了微妙的变化,从“长短之争”的剑拔弩张演化为“取长补短”的协同联动,却依然无法阻拦红果。 毋庸置疑,红果正走在高歌猛进的道路上。

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • 在支付宝上,超3亿人竟喜欢刷这类视频?

    近期,「克劳锐」发现,支付宝视频上线了专属的财经频道,不仅吸引到众多头部财经博主入驻,@杨天真、@敬汉卿 等竟然也入驻了支付宝短视频。

今日大家都在搜的词: