首页 > 业界 > 关键词  > UrbanGIRAFFE最新资讯  > 正文

浙大研究者提出UrbanGIRAFFE,解决城市场景的可控3D感知图像合成

2023-11-20 11:58 · 稿源:站长之家

**划重点:**

1. 🌐 UrbanGIRAFFE是浙江大学研究人员提出的一种用于逼真图像合成的方法,旨在实现可控的相机姿势和场景内容。

2. 🖼️ 该方法通过将场景分解为物体、物体和天空,利用语义体素网格和对象布局,实现对复杂城市环境的多样控制。

3. 🚀 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估,展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

站长之家(ChinaZ.com)11月20日 消息:浙江大学的研究人员最近提出了一种名为UrbanGIRAFFE的创新方法,用于解决具有挑战性的城市场景的可控3D感知图像合成问题。该方法通过引入可控的相机姿势和场景内容,以实现逼真的图像合成,特别是在处理具有挑战性的城市环境时。

UrbanGIRAFFE采用了一种组合和可控的策略,利用了粗糙的3D全景先验,包括无法计数的物体和可计数的对象的布局分布。该方法将场景分解为物体、物体和天空,从而实现对场景的多样控制,如大范围相机移动、物体编辑和物体操作。

在过去的条件图像合成方法中,以生成逼真图像为目标的方法已取得了显著进展,特别是那些利用生成对抗网络(GANs)的方法。然而,现有方法主要限于以对象为中心的场景,并且在处理复杂且不对齐的城市场景时存在局限性。UrbanGIRAFFE则专注于城市场景,通过引入3D感知的生成模型,克服了这些限制,为大范围相机移动、物体编辑和物体操作提供了多样的可控性。

image.png

UrbanGIRAFFE的创新之处在于将城市场景巧妙地分解为无法计数的物体、可计数的对象和天空,利用先验分布来理清复杂的城市环境。该模型包括一个条件物体生成器,利用语义体素网格作为物体先验,以集成粗糙的语义和几何信息。通过在混乱的场景中学习对象生成器的对象布局先验,模型在对抗性和重构损失的端到端训练中得以优化,利用射线-体素和射线-盒交叉策略来优化采样位置,减少所需采样点的数量。

在全面的评估中,UrbanGIRAFFE方法在合成和真实数据集上超越了各种2D和3D基线,展示了出色的可控性和保真度。在KITTI-360数据集上进行的定性评估显示,UrbanGIRAFFE在背景建模方面优于GIRAFFE,实现了增强的物体编辑和相机视角控制。在KITTI-360上进行的剖析研究证实了UrbanGIRAFFE的架构组件的有效性,包括重构损失、对象判别器和创新的对象建模。在推断期间采用移动平均模型进一步提高了生成图像的质量。

image.png

UrbanGIRAFFE的未来工作包括引入语义体素生成器,以进行新颖场景采样,并通过光-环境颜色解缠来探索光照控制。文章强调了重构损失的重要性,以保持保真度并产生多样的结果,尤其是对于不经常遇到的语义类别。

该研究展示了UrbanGIRAFFE在处理具有挑战性的城市场景的可控3D感知图像合成问题方面的卓越成就,实现了在相机视角操作、语义布局和物体交互方面的卓越多功能性。通过利用3D全景先验,该模型有效地将场景分解为物体、物体和天空,促进了组合生成建模。未来的研究方向包括整合语义体素生成器以进行新颖场景采样,并通过光-环境颜色解缠来探索光照控制。 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估,展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

项目网址:https://github.com/freemty/urbanGIRAFFE

https://lv3d.github.io/urbanGIRAFFE/

论文:https://arxiv.org/abs/2303.14167

举报

  • 相关推荐
  • 华为Mate 80标准版首次支持3D人脸识别:看齐Pro

    博主数码闲聊站爆料,华为Mate 80全系支持3D人脸识别,包括标准版,这在Mate系列史上还是第一次。 已知Mate 70 Pro系列支持3D人脸识别,其正面采用三挖孔形态,预计Mate 80系列正面也将是三挖孔设计,而且该机还将支持侧边指纹识别。 据悉,全新的华为Mate 80系列共有4款机型,分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。 其中Mate 80和Mate 80 Pro屏幕尺寸是6.75英寸,M

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 1299元起售!iPhone Pocket发布:采用3D 针织一体结构

    今日下午,苹果发文称,三宅一生携手苹果正式推出新配件iPhone Pocket。 其中短带款提供八种色彩外观:柠檬色、柑橘色、紫色、粉色、孔雀绿色、宝石蓝色、肉桂色和黑色。 长带款提供三种色彩外观:宝石蓝色、肉桂色和黑色。 短带款iPhone Pocket售价为1299元,长带款售价为1899元。

  • 告别电脑与线缆!Toucan无线一体式3D扫描仪双十一首发特惠,锁定11550元尝鲜价

    积木易搭发布新款无线一体式3D扫描仪Toucan,已在京东、天猫旗舰店首发上线。新品具备无线一体设计,无需连接电脑即可独立完成扫描建模全流程,支持大、中、小不同幅面物体扫描,精度达0.03mm,并搭载双镜头模组与双功率模式,适应多种作业场景。首发期间优惠价11550元,活动持续至11月30日,助力3D创作者高效完成数字内容制作。

  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • 触觉增强世界模型引关注,一目科技IROS首秀定义机器人感知新维度

    在2025年IROS大会上,中国AI企业一目科技凭借触觉感知与具身智能领域的突破成为焦点。公司展示了全球最薄仿生视觉触觉传感器,厚度大幅缩减,实现0.005N三维力分辨率和120fps输出帧率。CEO李智强提出"视觉-触觉-语言-行动"新范式,指出触觉能捕捉物理世界的隐秘维度。通过创新仿真平台和生成式AI技术,突破传统数据收集限制,显著提升机器人操作技能训练效率。现场机械臂成功演示易碎品抓取等复杂任务,验证了触觉感知在精细操控中的核心价值,为"操控即服务"产业愿景提供技术支撑。

  • 京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    京东在双11期间升级直播技术,推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示,用户无需额外设备即可旋转查看产品细节;JoyAI生成虚拟偶像Aura,与真人明星跨次元互动,提升趣味性。AI工具还简化直播运营,支持智能脚本和选品。这些技术打破传统直播边界,增强沉浸感和互动效率,引领电商直播创新方向。

  • 千元卧室投影推荐:实测大眼橙C3D画质/性能/体验都能打

    大眼橙C3D投影仪专为卧室场景设计,小巧机身节省空间,支持自动对焦和梯形校正,操作便捷。配备一体化云台,可360°旋转调节角度,轻松适配不同观影姿势。画质表现优秀,1080P分辨率兼容4K解码,850CVIA亮度确保开灯环境下画面清晰,MEMC运动补偿避免拖影。内置低噪音设计和卧室模式,兼顾安静与舒适观影体验,结合腾讯视频AI语音助手,实现智能操控。整体精准契合卧室娱乐需求,提升幸福感。

  • 小米智能门锁M40 Pro发布:售价3229元起 33D人脸+掌静脉

    小米正式发布智能门锁M40 Pro,预售价3229.15元,叠加补贴后低至2880.4元。配备5英寸高清大屏与AI双摄全景猫眼,实现无死角监控;搭载6颗夜视补光灯,支持多种夜视模式。提供12种开锁方式,包括创新AI掌静脉识别(解决老人指纹磨损问题)和AI 3D人脸识别(防伪检测)。采用自研降噪全自动锁体,支持双电池供电(总续航10.5个月),新增门内长时插线充电功能,支持Type-C应急供电和手机无线反向充电。

  • 软通华方超炫3700四卡液冷工作站,澎湃算力擘画教育蓝图

    《北京市教育领域人工智能应用工作方案》提出以智助教、助学、助评、助育、助研、助管六大应用场景蓝图。超炫3700四卡液冷工作站凭借强大算力、极致静音与全栈自主技术,成为实现智慧教育的关键力量。其1120T INT8推理算力和384GB显存可高效处理大模型及高并发任务,液冷技术将噪音降至45dB,适配教研场景。全栈国产化生态支持开箱即用,显著降低本地部署门槛,助力教育工作者释放潜能,推动教学质效飞跃。

今日大家都在搜的词: