首页 > 业界 > 关键词  > Wild2Avatar最新资讯  > 正文

AI透视眼!Wild2Avatar可逼真渲染视频中被遮挡的人物

2024-01-04 14:50 · 稿源:站长之家

**划重点:**

1. 🚀 **挑战与解决方案**:面对现有研究在理想条件下渲染3D人物的局限性,Wild2Avatar专注于解决真实场景中摄像头视野被遮挡导致部分遮挡的问题。

2. 🔍 **创新方法**:通过场景参数化,将场景分解为遮挡、人物和背景三个部分,并利用神经辐射场分别建模人物和遮挡/背景,以实现对被遮挡人物的准确渲染。

3. 🌟 **实验验证**:通过在野外视频上的实验证明,Wild2Avatar方法在解决真实世界场景下的挑战方面取得显著成效。

在渲染移动人物的视觉外观时,面对摄像头视野被遮挡的问题是一项巨大的挑战。大多数现有研究在理想条件下渲染3D人物,要求场景清晰且无障碍。然而,在真实世界场景中,可能会有障碍物阻挡摄像头视野,导致人物出现部分遮挡,这使得这些传统方法无法应用。

image.png

为了解决这一问题,著名人工智能教授李飞飞团队推出了Wild2Avatar,这是一种专为视频中被遮挡人物设计的神经渲染方法。

研究团队提出了一种考虑遮挡的场景参数化方法,将整个场景分解为遮挡、人物和背景三个部分。此外,我们设计了广泛的客观函数,以帮助强化人物与遮挡、背景的分离,并确保对人物模型的完整性。我们通过在野外视频上进行实验证明了我们方法的有效性。

方法介绍:

为了实现逼真的呈现,该方法将场景参数化为三个部分:遮挡物 → 人 → 背景,并通过新颖的优化目标将这些渲染解耦。为了处理在真实世界场景中可能出现的遮挡情况,该方法引入了感知遮挡的场景参数化,将场景解耦为遮挡、人和背景三个部分。此外,该方法设计了广泛的客观函数,以帮助强化将人从遮挡和背景中解耦,并确保人体模型的完整性。

image.png

具体来说,方法使用了场景的自分解技术,通过倒置球面参数化的扩展,引入了感知遮挡的场景参数化。在这个参数化中,除了第一个由倒置球面参数化定义的球体外,引入了第二个内部球体,并将从摄像机到内部球体边缘的区域定义为遮挡区域。通过分开渲染这个区域,可以将遮挡与场景的其余部分解耦。为了确保对人的高保真和完整呈现,方法通过像素级光度损失、场景分解损失、遮挡解耦损失和几何完整性损失的组合来聚合三个渲染。

image.png

该方法的贡献包括:

  1. 引入了感知遮挡的场景参数化,将场景解耦为遮挡、人体和背景三个部分。
  2. 提出了一种新的渲染框架,分别渲染这三个部分,并设计了新颖的优化目标,以确保遮挡的清晰解耦和更完整的人体呈现。
  3. 在具有挑战性的遮挡密集野外视频上对方法进行了评估,展示了其在呈现遮挡人体方面的有效性。

Wild2Avatar通过与Vid2Avatar(基线)和原始视频的对比,呈现了其在解决被遮挡人物渲染挑战方面的独特性能。

项目体验网址:https://top.aibase.com/tool/wild2avatar

论文网址:https://arxiv.org/pdf/2401.00431.pdf

举报

  • 相关推荐
  • 重磅预告:全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

    灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析,覆盖数据获取、建模到可视化全流程。用户可用自然语言交互,系统自主规划任务并输出可维护结果,支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手,旨在降低分析门槛,助力企业高效挖掘数据价值,适用于数据分析师、营销人员等各类用户。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 数据智能体 TabTabAI 正式上线,零门槛上手,让 “数据分析” 人人可用

    AI数据智能体TabTabAI正式上线,以“零门槛交互+全流程自主处理”为核心优势,打破数据分析技术壁垒。该工具通过自然语言对话,支持多源数据采集、智能处理、深度洞察与可视化,让普通职场人无需编程背景即可完成复杂分析任务。其多智能体协同架构与自动化能力,覆盖从数据收集到决策建议的全链路,助力用户将原始数据高效转化为精准决策依据,真正实现“人人都是数据分析师”。

  • 重新定义开放式耳机通讯体验:开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机,于Kickstarter震撼上线

    OpenRock推出全球首款可拆卸磁吸开放式耳机Link20,搭载独家MagShield™ FusionTech磁吸连接技术,解决传统开放式耳机通话质量差的痛点。产品采用人体工学近场音孔设计,配合5麦克风阵列与AI降噪系统,实现高清通话与Hi-Fi级音质。单耳仅重9克,支持IPX7防水与13小时续航,现已在Kickstarter开启首发预售,早鸟价105美元。

  • iOS 26液态玻璃效果能关了 苹果iOS 26.1 Beta 4新增液态玻璃开关

    苹果公司10月21日向iPhone用户推送iOS 26.1开发者预览版Beta4更新,新增Liquid Glass液态玻璃透明度切换开关,用户可将界面调整为“色调”模式以增强通知可读性。此次更新延续iOS 26的液态玻璃设计语言,带来更沉浸的视觉体验。同时支持关闭锁屏滑动相机功能避免误触,并扩展Apple Intelligence对丹麦语、荷兰语、繁体中文等七种语言的支持,让更多地区用户享受智能服务。

  • 宝藏新品登场!WIKO Hi MateBook 14锐龙版预售:颜艺双全,福利拉满

    WIKO Hi MateBook 14锐龙版于10月24日开启预售,起售价4999元。配备14英寸2.8K OLED触控屏,支持120Hz刷新率、100% sRGB色域及专业级色准,搭载AMD锐龙7 H255处理器与Radeon 780M显卡,性能强劲。设计上采用波点艺术键盘与1.32kg轻薄机身,支持AI智慧功能及跨设备协同,内置70Wh电池满足全天移动办公需求,兼顾高颜值与实用性,适合职场人士与创作者。

  • 连续三年折桂!瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖!

    2025全球数据管理峰会以“数据×人工智能”为主题,聚焦行业最佳实践,构建从理念探讨到技术落地的完整交流链。会上,瓴羊与DAMA联合发布数据治理实践证书体系,覆盖数据分析等认证,旨在提升全民数据素养。瓴羊副总裁王赛提出Data与AI双向赋能重构企业数字化生产力,强调未来系统需支持自主决策与自动化执行。以快消品牌为例,通过Quick BI智能分析工具实现业务效率提升。瓴羊Dataphin平台助力企业构建AI友好型数据模型,连续三年获“数据治理优秀产品”大奖,提供全链路数据服务,加速释放数据价值。

  • 【CIM 加速,AI有方】No.2|格创东智GT Insights用AI工作流改写半导体智造决策范式

    在半导体制造领域,数据驱动的精准决策成为提升良率、降低成本的核心。传统数据分析系统面临三大挑战:技术门槛高、分析周期长、知识传承难。格创东智推出的GT+Insights产品,通过自然语言交互实现“对话即分析”,大幅降低使用门槛。该系统采用语义建模技术,将复杂物理数据转化为业务友好模型,支持分钟级全链路良率根因分析。目前已在多家半导体企业成功落地,助力客户显著提升生产效率,推动行业向智能化持续迈进。

  • “全球Robotaxi第一股”文远知行:港股上市临近,商业化进程加速

    文远知行通过港交所聆讯,正式进入港股上市冲刺阶段,将构建“美股+港股”双资本平台。作为全球自动驾驶标杆企业,其产品已在7个国家获自动驾驶牌照,在11国30城开展测试运营,安全运营超2200天。技术层面,预测算法误差控制在0.2米内,感知模型延迟小于10毫秒,系统检测精度达99%。成本大幅下降,单车成本降至几十万元,二季度营收同比增长60.8%,自动驾驶网约车业务猛增836.7%。近期获准在北京开展夜间道路测试,向全天候服务网络迈出关键一步。随着技术成熟与商业模式验证,万亿级自动驾驶市场正迎来规模化运营拐点。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

今日大家都在搜的词: