浙大研究者提出UrbanGIRAFFE，解决城市场景的可控3D感知图像合成

2023-11-20 11:58 · 稿源：站长之家

**划重点:**
1. 🌐 UrbanGIRAFFE是浙江大学研究人员提出的一种用于逼真图像合成的方法，旨在实现可控的相机姿势和场景内容。
2. 🖼️ 该方法通过将场景分解为物体、物体和天空，利用语义体素网格和对象布局，实现对复杂城市环境的多样控制。
3. 🚀 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估，展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

站长之家（ChinaZ.com）11月20日消息:浙江大学的研究人员最近提出了一种名为UrbanGIRAFFE的创新方法，用于解决具有挑战性的城市场景的可控3D感知图像合成问题。该方法通过引入可控的相机姿势和场景内容，以实现逼真的图像合成，特别是在处理具有挑战性的城市环境时。

UrbanGIRAFFE采用了一种组合和可控的策略，利用了粗糙的3D全景先验，包括无法计数的物体和可计数的对象的布局分布。该方法将场景分解为物体、物体和天空，从而实现对场景的多样控制，如大范围相机移动、物体编辑和物体操作。

在过去的条件图像合成方法中，以生成逼真图像为目标的方法已取得了显著进展，特别是那些利用生成对抗网络（GANs）的方法。然而，现有方法主要限于以对象为中心的场景，并且在处理复杂且不对齐的城市场景时存在局限性。UrbanGIRAFFE则专注于城市场景，通过引入3D感知的生成模型，克服了这些限制，为大范围相机移动、物体编辑和物体操作提供了多样的可控性。

UrbanGIRAFFE的创新之处在于将城市场景巧妙地分解为无法计数的物体、可计数的对象和天空，利用先验分布来理清复杂的城市环境。该模型包括一个条件物体生成器，利用语义体素网格作为物体先验，以集成粗糙的语义和几何信息。通过在混乱的场景中学习对象生成器的对象布局先验，模型在对抗性和重构损失的端到端训练中得以优化，利用射线-体素和射线-盒交叉策略来优化采样位置，减少所需采样点的数量。

在全面的评估中，UrbanGIRAFFE方法在合成和真实数据集上超越了各种2D和3D基线，展示了出色的可控性和保真度。在KITTI-360数据集上进行的定性评估显示，UrbanGIRAFFE在背景建模方面优于GIRAFFE，实现了增强的物体编辑和相机视角控制。在KITTI-360上进行的剖析研究证实了UrbanGIRAFFE的架构组件的有效性，包括重构损失、对象判别器和创新的对象建模。在推断期间采用移动平均模型进一步提高了生成图像的质量。

UrbanGIRAFFE的未来工作包括引入语义体素生成器，以进行新颖场景采样，并通过光-环境颜色解缠来探索光照控制。文章强调了重构损失的重要性，以保持保真度并产生多样的结果，尤其是对于不经常遇到的语义类别。

该研究展示了UrbanGIRAFFE在处理具有挑战性的城市场景的可控3D感知图像合成问题方面的卓越成就，实现了在相机视角操作、语义布局和物体交互方面的卓越多功能性。通过利用3D全景先验，该模型有效地将场景分解为物体、物体和天空，促进了组合生成建模。未来的研究方向包括整合语义体素生成器以进行新颖场景采样，并通过光-环境颜色解缠来探索光照控制。 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估，展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

项目网址:https://github.com/freemty/urbanGIRAFFE

https://lv3d.github.io/urbanGIRAFFE/

论文:https://arxiv.org/abs/2303.14167

（举报）

相关推荐

关键词：

华为Mate 80标准版首次支持3D人脸识别：看齐Pro

博主数码闲聊站爆料，华为Mate 80全系支持3D人脸识别，包括标准版，这在Mate系列史上还是第一次。已知Mate 70 Pro系列支持3D人脸识别，其正面采用三挖孔形态，预计Mate 80系列正面也将是三挖孔设计，而且该机还将支持侧边指纹识别。据悉，全新的华为Mate 80系列共有4款机型，分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。其中Mate 80和Mate 80 Pro屏幕尺寸是6.75英寸，M

华为Mate 80 3D人脸识别
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
1299元起售！iPhone Pocket发布：采用3D 针织一体结构

今日下午，苹果发文称，三宅一生携手苹果正式推出新配件iPhone Pocket。其中短带款提供八种色彩外观：柠檬色、柑橘色、紫色、粉色、孔雀绿色、宝石蓝色、肉桂色和黑色。长带款提供三种色彩外观：宝石蓝色、肉桂色和黑色。短带款iPhone Pocket售价为1299元，长带款售价为1899元。

苹果 iPhone Pocket
告别电脑与线缆！Toucan无线一体式3D扫描仪双十一首发特惠，锁定11550元尝鲜价

积木易搭发布新款无线一体式3D扫描仪Toucan，已在京东、天猫旗舰店首发上线。新品具备无线一体设计，无需连接电脑即可独立完成扫描建模全流程，支持大、中、小不同幅面物体扫描，精度达0.03mm，并搭载双镜头模组与双功率模式，适应多种作业场景。首发期间优惠价11550元，活动持续至11月30日，助力3D创作者高效完成数字内容制作。

3D扫描仪新品首发无线一体式
Mate史上第一次！华为Mate 80全系支持3D人脸识别

据数码博主爆料，华为Mate 80系列有望全系标配3D人脸识别，采用国产方案，核心组件均来自国内顶级供应商。该系列将提供四款机型，搭载全新鸿蒙6系统并首发麒麟9030芯片，成为华为史上最强Mate旗舰，最快或于11月亮相。

华为Mate 80 3D人脸识别
触觉增强世界模型引关注，一目科技IROS首秀定义机器人感知新维度

在2025年IROS大会上，中国AI企业一目科技凭借触觉感知与具身智能领域的突破成为焦点。公司展示了全球最薄仿生视觉触觉传感器，厚度大幅缩减，实现0.005N三维力分辨率和120fps输出帧率。CEO李智强提出"视觉-触觉-语言-行动"新范式，指出触觉能捕捉物理世界的隐秘维度。通过创新仿真平台和生成式AI技术，突破传统数据收集限制，显著提升机器人操作技能训练效率。现场机械臂成功演示易碎品抓取等复杂任务，验证了触觉感知在精细操控中的核心价值，为"操控即服务"产业愿景提供技术支撑。
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型
千元卧室投影推荐：实测大眼橙C3D画质/性能/体验都能打

大眼橙C3D投影仪专为卧室场景设计，小巧机身节省空间，支持自动对焦和梯形校正，操作便捷。配备一体化云台，可360°旋转调节角度，轻松适配不同观影姿势。画质表现优秀，1080P分辨率兼容4K解码，850CVIA亮度确保开灯环境下画面清晰，MEMC运动补偿避免拖影。内置低噪音设计和卧室模式，兼顾安静与舒适观影体验，结合腾讯视频AI语音助手，实现智能操控。整体精准契合卧室娱乐需求，提升幸福感。

双11购物清单提升卧室幸福感卧室投影仪
小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

小米正式发布智能门锁M40 Pro，预售价3229.15元，叠加补贴后低至2880.4元。配备5英寸高清大屏与AI双摄全景猫眼，实现无死角监控；搭载6颗夜视补光灯，支持多种夜视模式。提供12种开锁方式，包括创新AI掌静脉识别（解决老人指纹磨损问题）和AI 3D人脸识别（防伪检测）。采用自研降噪全自动锁体，支持双电池供电（总续航10.5个月），新增门内长时插线充电功能，支持Type-C应急供电和手机无线反向充电。

小米智能门锁 M40Pro预售智能门锁优惠
软通华方超炫3700四卡液冷工作站，澎湃算力擘画教育蓝图

《北京市教育领域人工智能应用工作方案》提出以智助教、助学、助评、助育、助研、助管六大应用场景蓝图。超炫3700四卡液冷工作站凭借强大算力、极致静音与全栈自主技术，成为实现智慧教育的关键力量。其1120T INT8推理算力和384GB显存可高效处理大模型及高并发任务，液冷技术将噪音降至45dB，适配教研场景。全栈国产化生态支持开箱即用，显著降低本地部署门槛，助力教育工作者释放潜能，推动教学质效飞跃。

人工智能教育算力基础设施智慧教育

今日大家都在搜的词：

热文

3 天
7天

浙大研究者提出UrbanGIRAFFE，解决城市场景的可控3D感知图像合成

华为Mate 80标准版首次支持3D人脸识别：看齐Pro

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

1299元起售！iPhone Pocket发布：采用3D 针织一体结构

告别电脑与线缆！Toucan无线一体式3D扫描仪双十一首发特惠，锁定11550元尝鲜价

Mate史上第一次！华为Mate 80全系支持3D人脸识别

触觉增强世界模型引关注，一目科技IROS首秀定义机器人感知新维度

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

千元卧室投影推荐：实测大眼橙C3D画质/性能/体验都能打

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

软通华方超炫3700四卡液冷工作站，澎湃算力擘画教育蓝图

今日大家都在搜的词：

热文

iPhone Pocket正式开售：联名三宅一生售价1299元起

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

站长商机