首页 > AI头条  > 正文

单图秒变3D奇境:Wonderland可高效构建高质量3D场景

2025-01-07 14:30 · 来源: AIbase基地

长期以来,如何仅凭单张图像高效生成高质量、广阔视角的3D场景一直是研究人员面临的挑战。传统方法往往依赖多视角数据,或需要耗时的逐场景优化,并且在背景质量和未见区域的重建上存在不足。现有技术在处理单视图3D场景生成时,常因信息不足而导致遮挡区域的错误或扭曲,背景模糊,以及难以推断未见区域的几何结构。而基于回归的模型虽然可以前馈方式进行新视角合成,但它们在处理复杂场景时面临巨大的内存和计算压力,因此大多局限于物体级别的生成或窄视角场景。

image.png

为了克服这些限制,研究人员推出了一项名为Wonderland的新技术。Wonderland能够仅凭单张图像,以前馈方式高效生成高质量、基于点云的3D场景表示 (3DGS)。该技术利用视频扩散模型中蕴含的丰富3D场景理解能力,并直接从视频潜在空间构建3D表示,显著降低了内存需求。3DGS通过前馈方式从视频潜在空间回归,从而显著加快了重建过程。Wonderland的关键创新点包括:

利用相机引导的视频扩散模型的生成先验知识:与图像模型不同,视频扩散模型在大量视频数据集上进行训练,捕获了场景中跨多个视角的全面空间关系,并在其潜在空间中嵌入了一种“3D感知”形式,从而可以在新视角合成中保持3D一致性。

image.png

通过双分支条件机制实现精确的相机运动控制:该机制有效地将期望的各种相机轨迹整合到视频扩散模型中,使其能够将单张图像扩展为具有精确姿态控制的3D场景的多视角一致捕捉。

直接将视频潜在空间转换为3DGS以实现高效的3D重建:一种新型的基于潜在空间的大型重建模型(LaLRM)以前馈方式将视频潜在空间提升到3D。与从图像重建场景相比,视频潜在空间提供了256倍的时空压缩,同时保留了必要的、一致的3D结构细节。这种高度压缩对于使LaLRM能够在重建框架内处理更广泛的3D场景至关重要。

image.png

Wonderland通过利用视频扩散模型的生成能力,实现了高质量、广阔视角和更多样化场景的渲染,甚至可以处理超出对象级别重建的场景。其双分支相机条件策略,使视频扩散模型能够以更精确的姿态控制生成3D一致的多视角场景捕捉。在零样本新视角合成设置下,Wonderland使用单张图像作为输入进行前馈3D场景重建,其性能在多个基准数据集(如RealEstate10K,DL3DV和Tanks-and-Temples)上均优于现有方法。

Wonderland的整体流程是:首先,给定一张单张图像,一个相机引导的视频扩散模型会根据相机轨迹生成一个具有3D感知能力的视频潜在空间。然后,基于潜在空间的大型重建模型(LaLRM)以前馈方式利用该视频潜在空间构建3D场景。视频扩散模型采用双分支相机条件机制来实现精确的姿态控制。LaLRM在潜在空间中运行,并高效重建广阔且高保真的3D场景。

Wonderland的技术细节如下:

相机引导的视频潜在空间生成:为了实现精确的姿态控制,该技术使用像素级的Plücker嵌入丰富条件信息,并采用双分支条件机制,将相机信息融入到视频扩散模型中,以生成静态场景。

基于潜在空间的大型重建模型(LaLRM):该模型将视频潜在空间转换为3D高斯飞溅(3DGS),用于场景构建。LaLRM通过使用transformer架构回归高斯属性,以像素对齐的方式进行大规模重建,与图像级逐场景优化策略相比,大大降低了内存和时间成本。

渐进式训练策略:为了应对视频潜在空间和高斯飞溅之间的巨大差异,Wonderland采用渐进式训练策略,在数据源和图像分辨率方面逐步提高模型性能。

研究人员通过广泛的实验验证了Wonderland的有效性。在相机引导的视频生成方面,Wonderland在视觉质量、相机引导精度和视觉相似度方面均优于现有技术。在3D场景生成方面,Wonderland在RealEstate10K、DL3DV和Tanks-and-Temples等基准数据集上的表现也明显优于其他方法。此外,Wonderland在野外场景生成方面也展现了强大的能力。在延迟方面,Wonderland仅需5分钟即可完成场景生成,远超其他方法.

Wonderland通过在潜在空间中操作,并结合双分支相机姿态引导,不仅提高了3D重建的效率,还保证了高质量的场景生成,为单张图像生成3D场景带来了新的突破。

论文地址:https://arxiv.org/pdf/2412.12091

  • 相关推荐
  • 从心脏、到血管……3D打印开启“器官替换”时代

    为了确保3D打印的人工器官能正常运行,必须让血管充分发挥功能。若无法稳定供血,人工器官的广泛使用根本无从谈起……

  • 创想三维光固化3D打印机新品上市!618福利加码:购买指定款抽免单,60台3D打印机直接送

    创想三维旗下品牌PioCreat推出HALOT-X1光固化3D打印机,配备10.1英寸16K高分辨率屏幕和蜂巢矩阵光源,打印精度达0.05mm。新品采用智能分区曝光技术,搭配动光源+静平台结构,提升打印稳定性。618期间购机享多重优惠:参与免单抽奖、耗材多件多折,赠创想云VIP会员一年。K系列高速打印机支持600mm/s打印速度,K2 Plus Combo支持16色打印;Otter Lite扫描仪实现0.05mm精度无线扫描。全系产品覆盖教育、工业、创意等多场景需求,提供专业选购攻略。(注:具体活动规则以官方店铺为准)

  • 如何用DeepSeek生成高质量的竞品SWOT分析报告

    本教程介绍如何利用DeepSeek AI工具快速生成电商平台供应链SWOT分析报告。以京东vs拼多多为例,通过输入指定指令,AI可自动生成包含优势、劣势、机会和威胁四个维度的结构化分析报告,重点突出两者供应链能力差异。操作流程包括:1)登录DeepSeek官网进入对话界面;2)输入SWOT分析指令;3)获取AI生成结果。该方法能显著提升商业分析效率,建议结合最新行业数据对报告进�

  • 如何用DeepSeek快速起草高质量商务合作邮件

    本文介绍如何利用DeepSeek AI快速生成专业商务合作邀约邮件。传统邮件撰写耗时费力,而通过该工具只需四步:1)登录官网输入指令;2)提供合作对象、内容等关键信息;3)AI自动生成结构清晰、措辞专业的邮件草稿;4)复制到邮箱发送或下载存档。该工具能显著提升商务沟通效率,特别适合需要频繁进行业务往来的职场人士,支持个性化调整并保留专业度,是现代化办公的高效解决方案。(139字)

  • 省委常委、市委书记刘非调研思看科技,勉励思看勇攀3D视觉数字化科技高峰

    省委常委、市委书记刘非赴杭州市余杭区调研科技创新工作,强调要深入学习贯彻重要指示精神,全面落实省委"一个首要任务、三个主攻方向、两个根本"总体部署。调研期间,刘非实地考察思看科技公司,详细了解其3D视觉数字化技术研发成果及在航天、大飞机等重大项目的应用情况,勉励企业要着眼世界前沿,加大创新力度,在3D视觉数字化领域实现更大突破。余杭�

  • 小赢卡贷:数字金融赋能实体经济高质量发展

    小赢卡贷深耕湾区沃土,通过"科技+金融"创新模式服务小微企业。其自主研发智能风控系统,构建多维风险评估模型,解决小微企业信用评估难题;开发差异化信贷产品,实现全流程数字化服务;通过科技降本增效,提供普惠利率。目前累计服务超百万湾区小微企业和个体工商户,成为区域经济重要推手。未来将持续加强AI、区块链等前沿技术研发,探索跨境金融、绿色金融等创新业务,深化产学研合作培育数字人才,助力大湾区金融科技高地建设,以科技赋能实体经济高质量发展。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 荣膺四项殊荣!安凯客车以创新实力引领商用车高质量发展

    安凯客车在"运输新生态高质量发展论坛暨2025中国商用车品牌营销盛典"上斩获四项行业殊荣,包括"重大赛事交通服务突出贡献单位"和"服务金口碑称号"两项服务类奖项,以及旗下N12豪华公路客车获"公路热销车型"、E12S双层观光巴士获"旅游金口碑称号"产品类奖项。N12凭借卓越品质批量交付新疆、山东等地高端旅游市场,并出口沙特;E12S创新文旅融合模式,已在北京、上海等城市及欧美多国投入运营。安凯以"精准响应、高效处理"服务理念构建全国服务网络,连续五届获服务品牌殊荣,并圆满完成北京奥运会等重大国事交通保障任务。未来将持续以"绿智赋能"为驱动,推动中国客车全球化发展。

  • 每日互动:进一步开发数据要素价值 推动城市交通高质量发展

    浙江省数据局于2025年6月4日公告,浙江云通达数达科技成为省内首批省级公共数据授权运营单位,将开展"数智绿波"场景应用。该公司自2022年进入智慧交通领域,已在34个地区落地645条数智绿波带,使道路通行效率提升超20%。此次授权将推动其在规划建设、优化管理等方面持续发力,并通过数据API与科研单位等开展二次创新,赋能智能网联汽车"车路云一体化"项目建设。该授权是对公司在数据安全、技术能力等方面的认可,未来将继续深化数据融合与场景探索,助力城市交通高质量发展。(140字)

  • 唐煦数畅以全链路数据服务赋能数字经济高质量发展

    在数字经济成为国家战略核心的背景下,数据要素作为新型生产要素的价值日益凸显。国内领先的数据服务商唐照数畅发布"数据要素全链路服务解决方案",覆盖数据采集、治理、流通、应用全生命周期服务,助力政企客户释放数据价值。公司依托自主技术构建数据要素全链路服务生态,为金融、政务、医疗等领域提供数据支撑。方案包含五大核心服务:数据托管与治理、数据产品开发、数据确权交易、数据资产金融服务及数据安全存储。唐照数畅坚持"技术+合规"双轮驱动,通过隐私计算等技术保障数据安全流通,已服务2000余家政企客户,促成数据资产交易超20亿元。未来将持续完善数据要素服务生态,推动数字经济高质量发展。

今日大家都在搜的词: