首页 > 业界 > 关键词  > Wild2Avatar最新资讯  > 正文

AI透视眼!Wild2Avatar可逼真渲染视频中被遮挡的人物

2024-01-04 14:50 · 稿源:站长之家

**划重点:**

1. 🚀 **挑战与解决方案**:面对现有研究在理想条件下渲染3D人物的局限性,Wild2Avatar专注于解决真实场景中摄像头视野被遮挡导致部分遮挡的问题。

2. 🔍 **创新方法**:通过场景参数化,将场景分解为遮挡、人物和背景三个部分,并利用神经辐射场分别建模人物和遮挡/背景,以实现对被遮挡人物的准确渲染。

3. 🌟 **实验验证**:通过在野外视频上的实验证明,Wild2Avatar方法在解决真实世界场景下的挑战方面取得显著成效。

在渲染移动人物的视觉外观时,面对摄像头视野被遮挡的问题是一项巨大的挑战。大多数现有研究在理想条件下渲染3D人物,要求场景清晰且无障碍。然而,在真实世界场景中,可能会有障碍物阻挡摄像头视野,导致人物出现部分遮挡,这使得这些传统方法无法应用。

image.png

为了解决这一问题,著名人工智能教授李飞飞团队推出了Wild2Avatar,这是一种专为视频中被遮挡人物设计的神经渲染方法。

研究团队提出了一种考虑遮挡的场景参数化方法,将整个场景分解为遮挡、人物和背景三个部分。此外,我们设计了广泛的客观函数,以帮助强化人物与遮挡、背景的分离,并确保对人物模型的完整性。我们通过在野外视频上进行实验证明了我们方法的有效性。

方法介绍:

为了实现逼真的呈现,该方法将场景参数化为三个部分:遮挡物 → 人 → 背景,并通过新颖的优化目标将这些渲染解耦。为了处理在真实世界场景中可能出现的遮挡情况,该方法引入了感知遮挡的场景参数化,将场景解耦为遮挡、人和背景三个部分。此外,该方法设计了广泛的客观函数,以帮助强化将人从遮挡和背景中解耦,并确保人体模型的完整性。

image.png

具体来说,方法使用了场景的自分解技术,通过倒置球面参数化的扩展,引入了感知遮挡的场景参数化。在这个参数化中,除了第一个由倒置球面参数化定义的球体外,引入了第二个内部球体,并将从摄像机到内部球体边缘的区域定义为遮挡区域。通过分开渲染这个区域,可以将遮挡与场景的其余部分解耦。为了确保对人的高保真和完整呈现,方法通过像素级光度损失、场景分解损失、遮挡解耦损失和几何完整性损失的组合来聚合三个渲染。

image.png

该方法的贡献包括:

  1. 引入了感知遮挡的场景参数化,将场景解耦为遮挡、人体和背景三个部分。
  2. 提出了一种新的渲染框架,分别渲染这三个部分,并设计了新颖的优化目标,以确保遮挡的清晰解耦和更完整的人体呈现。
  3. 在具有挑战性的遮挡密集野外视频上对方法进行了评估,展示了其在呈现遮挡人体方面的有效性。

Wild2Avatar通过与Vid2Avatar(基线)和原始视频的对比,呈现了其在解决被遮挡人物渲染挑战方面的独特性能。

项目体验网址:https://top.aibase.com/tool/wild2avatar

论文网址:https://arxiv.org/pdf/2401.00431.pdf

举报

  • 相关推荐
  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • Meta 抢占AI霸权争夺加剧,微美全息(WIMI.US)布局产业生态应对市场竞争

    Meta斥资数十亿美元争夺AI领域主导权,包括从OpenAI挖走三名研究员,甚至开出1亿美元签约费。同时,Meta同意以148亿美元收购AI初创公司Scale AI 49%股份,这是其史上最大外部投资。中国AI领域也快速发展,已有433款大模型完成备案上线。专家指出,开源模式推动了大模型创新生态,形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地,集成国际先进�

  • 微软以Maia 280开启新局对垒英伟达,Meta/微美全息开源联动引领AI创新

    微软自研AI芯片Braga因设计问题延期至2026年,将推出过渡产品Maia280,性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖,但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位(市占率超80%,年销售额增长10倍),微软正调整战略转向更务实的迭代路线。与此同时,Meta成立"超级智能团队"加速AI研发,微美全息押注量子计算等前沿技术。行业分析师认为,由于英伟达技术迭代速度极快(年增长32%),多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 苹果发布iOS 18.6开发者预览版Beta 3:国行AI遥遥无期

    今日,苹果向iPhone用户推送了iOS 18.6开发者预览版Beta 3。 开发者可在兼容设备上通过设置”应用,进入通用软件更新”下载该测试版。 目前尚未发现有可见更新内容,不过此前有消息称,iOS 18.6将会针对欧盟地区用户进行实用性更新。 苹果当前在欧盟地区的iOS版本虽然支持上述两种行为,但会插入一些警告屏幕,这引起了欧盟监管机构的关注,将会进行一些调整。 值得注意�

  • 共探AI视频新纪元:讯飞“绘镜开放麦”全回顾

    7月12日,科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行,汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划",邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验,讯飞工程师详解了AI视频生成技术原理,强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术,提升视频生成质量。活动还展示了AI视频挑战赛优秀作品,6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区,将持续推动AI创作生态发展。

  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • 还在搜“最新AI产品”?这个AI产品库让你领先99%的人!

    文章介绍AIbase产品库,这是一个专注于AI工具导航的平台。它通过每日更新全球最新AI产品、精准分类(如写作、绘画、视频生成等)、多维度筛选(价格、功能、平台)和真实用户评价,帮助用户高效发现优质AI工具。平台覆盖办公提效、创意设计、编程开发等场景,解决信息过载问题,让用户能快速找到适合自己需求的AI解决方案。

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具

  • 加速Robotaxi部署 滴滴自动驾驶进入爆发前夜

    滴滴自动驾驶在第十七届国际交通技术设备展上亮相新一代L4级量产车型,配备33个传感器,展现技术突破。公司宣布将持续加大研发投入,与广汽埃安成立合资公司加速无人驾驶商业化落地。目前滴滴Robotaxi车队已在北京、广州等城市稳定运营超1800天无重大事故,并计划年内部署千台车辆。凭借多年技术积累和资本支持(累计融资超15.5亿美元),滴滴正迈向规模化商业运营新阶段。近期与广州市政府达成战略合作,进一步拓展智慧交通应用场景,标志着其自动驾驶技术进入爆发前夜。