首页 > 业界 > 关键词  > 3DHM最新资讯  > 正文

3DHM框架:一图片可模仿任意视频动作 360度无死角

2024-01-29 13:57 · 稿源:站长之家

划重点:

- 无需标注数据,3DHM框架即可让照片动起来,模仿目标视频动作,衣服动起来也真实!

- 研究人员提出了一个两阶段的、基于扩散模型的框架3DHM,通过从单个图像完成纹理图来合成3D人体运动,然后渲染3D人体以模仿视频中actor的动作。

- 该方法在生成长时间运动和各种高难度的姿势上更有弹性,对视频图像渲染更加逼真。

站长之家(ChinaZ.com)1月29日 消息:加州大学伯克利分校的研究人员最近发布了一个名为3DHM的框架,能够让一张图片动起来,模仿任意视频动作,即使是视频中的衣服也能够运动得非常真实。

这一框架无需标注数据,通过从单个图像完成纹理图来合成3D人体运动,然后渲染3D人体以模仿视频中actor的动作。通过这种方法,研究人员能够在生成长时间运动和各种高难度的姿势上更有弹性,对视频图像渲染更加逼真。

为了解决这个问题,研究人员使用填充扩散模型,在给定的单张图像中想象出不可见部分,然后在纹理图空间上训练该模型,在姿势和视点不变的条件下提升采样效率。

他们还开发了一个基于扩散模型的渲染pipeline,由3D人体姿势控制,从而可以生成目标人物在不同姿势下的逼真渲染,包括衣服、头发和看不见区域下的合理填充。实验结果表明,相比以前的方法,该方法在生成长时间运动和各种高难度的姿势上更有弹性。

在具体实现上,研究人员首先利用一种常用的方法来推断像素到表面的对应关系,从而建立一个不完整的UV纹理图,用于从单张RGB图像中提取三维网格纹理。同时计算可见性掩码,以显示哪些像素在3D中可见,哪些不可见。接着,通过生成伪完整纹理贴图来渲染人物。

在第二阶段,他们通过收集大量的配对数据训练第二阶段扩散模型,以获得一个模仿actor动作的人的逼真渲染效果。

image.png

这种方法使得他们能够在生成具有生动纹理的真人图像上取得良好的效果。

论文网址:https://arxiv.org/abs/2401.10889

举报

  • 相关推荐
  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • 央视网首场AI晚会七夕“AI心动夜”即将开启 联合可灵AI打造视听盛宴

    8月28日晚8点,央视频与快手可灵AI联合打造的七夕晚会“AI心动夜”正式开启。晚会以“AI视频叙事+传统文化”为核心,通过AI技术融合文化传承、艺术创作与情感表达,呈现跨越虚拟与现实、科技与文化交融的七夕盛典。节目包括《星河告白》《千年婚服秀》等,展现不同时代的爱情故事与中华婚服之美,同时通过《与妻书》《许愿吧》等作品探讨革命年代的深情与当代浪漫。晚会将在央视频、快手等平台同步直播,带领观众体验科技与文化的精彩碰撞。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • 腾讯Kuikly框架进一步开源,新增支持Web,开启一码五端新体验!

    腾讯开源的跨端开发框架Kuikly基于Kotlin Multiplatform技术,新增Web版支持H5和微信小程序。相比主流跨端方案,Kuikly Web版采用DOM渲染,包体积仅463KB,加载速度快,兼容性好,支持SEO优化。已在腾讯多款业务中应用,日活用户超5亿。未来将持续优化性能,探索WASM技术,并计划开源Electron适配版本。

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • 最新AI资讯哪里看?AI技术人员如何从论文到产业应用全覆盖?

    文章指出,ArXiv、ACL和NeurIPS等论文库是AI开发者获取前沿技术的重要来源,但仅依赖论文库已不足以构建完整竞争力。作者强调需要超越论文本身,关注技术落地、产业应用及生态动态。推荐利用AIbase等技术资讯平台作为补充,提供筛选整合、趋势解读和产业视角,帮助开发者高效把握技术动态,避免闭门造车,构建复合型信息摄入体系。

  • AI产品栏目推荐:2025年值得关注的全球AI创新动态与前沿工具盘点

    AIbase是一个全球AI创新观察平台,收录了来自100多个国家和地区的2万多个AI产品。它提供实时更新、全球热门排行和精细筛选功能,帮助用户发现全球最新AI趋势。平台不仅展示产品信息,还提供技术说明、定价等详细数据,支持中文呈现,降低信息获取门槛。对投资者、研究人员和产品经理等不同用户群体都具有重要价值,是连接全球AI创新脉搏的重要枢纽。

  • 可赞AI深度测评:这款AI办公助手,让我告别加班写报告!

    文章分享了一款名为“可赞AI”的办公工具,能高效处理文档写作、图表制作和会议纪要整理。通过实际测试,作者发现该工具可自动生成结构化摘要、可视化图表,并支持多场景适配,大幅提升办公效率。尤其适合团队协作,减少沟通成本。虽然部分复杂功能仍需优化,但整体完成度高,值得职场人士尝试。

今日大家都在搜的词: