首页 > 业界 > 关键词  > 3DHM最新资讯  > 正文

3DHM框架:一图片可模仿任意视频动作 360度无死角

2024-01-29 13:57 · 稿源:站长之家

划重点:

- 无需标注数据,3DHM框架即可让照片动起来,模仿目标视频动作,衣服动起来也真实!

- 研究人员提出了一个两阶段的、基于扩散模型的框架3DHM,通过从单个图像完成纹理图来合成3D人体运动,然后渲染3D人体以模仿视频中actor的动作。

- 该方法在生成长时间运动和各种高难度的姿势上更有弹性,对视频图像渲染更加逼真。

站长之家(ChinaZ.com)1月29日 消息:加州大学伯克利分校的研究人员最近发布了一个名为3DHM的框架,能够让一张图片动起来,模仿任意视频动作,即使是视频中的衣服也能够运动得非常真实。

这一框架无需标注数据,通过从单个图像完成纹理图来合成3D人体运动,然后渲染3D人体以模仿视频中actor的动作。通过这种方法,研究人员能够在生成长时间运动和各种高难度的姿势上更有弹性,对视频图像渲染更加逼真。

为了解决这个问题,研究人员使用填充扩散模型,在给定的单张图像中想象出不可见部分,然后在纹理图空间上训练该模型,在姿势和视点不变的条件下提升采样效率。

他们还开发了一个基于扩散模型的渲染pipeline,由3D人体姿势控制,从而可以生成目标人物在不同姿势下的逼真渲染,包括衣服、头发和看不见区域下的合理填充。实验结果表明,相比以前的方法,该方法在生成长时间运动和各种高难度的姿势上更有弹性。

在具体实现上,研究人员首先利用一种常用的方法来推断像素到表面的对应关系,从而建立一个不完整的UV纹理图,用于从单张RGB图像中提取三维网格纹理。同时计算可见性掩码,以显示哪些像素在3D中可见,哪些不可见。接着,通过生成伪完整纹理贴图来渲染人物。

在第二阶段,他们通过收集大量的配对数据训练第二阶段扩散模型,以获得一个模仿actor动作的人的逼真渲染效果。

image.png

这种方法使得他们能够在生成具有生动纹理的真人图像上取得良好的效果。

论文网址:https://arxiv.org/abs/2401.10889

举报

  • 相关推荐
  • 为什么AI搜索会“抛弃”传统SEO?

    AI搜索正颠覆传统搜索生态,用户从“找链接”转向“得答案”。传统SEO三大策略失效:首页排名概念消失,关键词堆砌失效,外链权重减弱。新时代GEO(生成引擎优化)关注内容结构化、权威性和语义丰富度。建议使用AIBase等工具监测品牌在AI回答中的曝光率,通过优化内容质量提升被引用概率。这是从流量竞争到信任度构建的范式转移。

  • “AI家教”火了,哪家大厂领跑?

    各大应用榜单刚刚公布的9月数据,揭示出一个AI应用新风向——教育类AI应用正加速崛起。 多家机构的数据显示,这一赛道的月活用户(MAU)与下载量双双上涨,部分产品涨幅甚至逼近1000%。 以非凡产研的数据为例,好课帮助教育旗下的“光速写作”凭借场景定位与功能体验,月环比下载增速高达926.59%,科大讯飞旗下的“E听说中学”依托校园教学场景的产品设计,月活跃用�

  • 实时调度36万真人医生,百度健康AI管家有医靠更可信

    10月18日,百度健康发布AI健康管家,首创“AI+真人”双保障模式。该产品在训练阶段引入36万医生标注数据,生成建议后由真人医生二次核验,确保专业安全。覆盖诊前、诊中、诊后全环节,提供数十项AI功能,包括科普问答、用药咨询、报告解读等。用户可通过百度APP搜索使用,定位为7*24小时个人健康助手,有效解决在线医疗服务时效性难题。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • AI 搜索时代,SEO该何去何从?一文解密“AI 搜索对 SEO 的深远影响”

    AI搜索时代,传统SEO面临三大变革:用户行为从点击链接转向AI直接生成答案,搜索入口从索引排名转向生成式引用,内容机制更注重权威性与结构化数据。SEO并未消亡,而是进化——需聚焦可引用内容、结构化优化、多平台布局。推荐使用AIBase GEO工具监测被AI引擎引用情况,核心目标从"排名第一"转向"被AI优先选中"。

  • AI +游戏,何以撑起百亿市场?

    今年以来,生成式AI技术在游戏领域的应用步伐显著加快。在Steam平台上,使用生成式AI技术的游戏数量呈现出惊人增长,激增了800%。行业预测显示,在今年新上市的游戏中,这一应用比例预计将达到20%。 游戏厂商的布局也明显提速。头部公司正持续加码技术中台与垂类模型的构建:腾讯搭建了混元与GiiNEX协同的双引擎生态;网易则着力构建AIUGC地图系统并升级游戏内的AI对手模�

  • AI时代品牌营销致胜秘诀:用数据驱动GEO优化,让AI排名持续在线

    当DeepSeek、豆包、文心一言等AI助手成为10亿用户的信息入口,品牌面临生死抉择:要么出现在AI推荐中,要么彻底消失。文章指出,AI营销与传统SEO完全不同,是一场没有终点的动态竞赛,需要持续投入和调整。品牌需建立“监测-分析-优化”闭环机制,使用专业工具实时监控排名波动,快速响应算法迭代和用户提问变化。成功关键在于让AI“看见”并“信任”品牌,通过补充权威数据、多媒体内容、长尾语义覆盖等方式提升可信度,在流量红利期抢占先机。

  • AI日报:阿里发布紧凑型Qwen3-VL模型;科大讯飞AI翻译耳机全球首发;Gemini代码惊现Veo3.1

    阿里巴巴发布紧凑型Qwen3-VL多模态模型,推动边缘设备AI应用;科大讯飞推出全球首款AI翻译耳机,支持60种语言实时翻译;谷歌NotebookLM集成图像生成功能,可将笔记转为动态视频;ChatGPT将于12月向成人开放限制内容并推出自定义交互功能;谷歌Gemini代码泄露Veo3.1视频模型升级迹象;马斯克宣布X平台将全面转向AI推荐系统;巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS;vivo公布X200系列影像升级计划;字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • AI定制美颜的背后,天玑9500强大端侧AI赋能vivo X300个性化体验

    vivo X300系列旗舰手机正式发布,搭载天玑9500芯片,以“蔡司2亿影像双王”新格局开启移动影像新征程。MediaTek与vivo深度合作,从联合调校走向共同定义,实现性能与能效的卓越平衡。天玑9500采用第三代全大核架构,CPU性能提升显著,功耗大幅降低,结合双NPU设计,带来AI影像增强、4K视频录制及流畅系统体验,树立高端手机新标杆。

今日大家都在搜的词: