浙大研究者提出UrbanGIRAFFE，解决城市场景的可控3D感知图像合成

2023-11-20 11:58 · 稿源：站长之家

**划重点:**
1. 🌐 UrbanGIRAFFE是浙江大学研究人员提出的一种用于逼真图像合成的方法，旨在实现可控的相机姿势和场景内容。
2. 🖼️ 该方法通过将场景分解为物体、物体和天空，利用语义体素网格和对象布局，实现对复杂城市环境的多样控制。
3. 🚀 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估，展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

站长之家（ChinaZ.com）11月20日消息:浙江大学的研究人员最近提出了一种名为UrbanGIRAFFE的创新方法，用于解决具有挑战性的城市场景的可控3D感知图像合成问题。该方法通过引入可控的相机姿势和场景内容，以实现逼真的图像合成，特别是在处理具有挑战性的城市环境时。

UrbanGIRAFFE采用了一种组合和可控的策略，利用了粗糙的3D全景先验，包括无法计数的物体和可计数的对象的布局分布。该方法将场景分解为物体、物体和天空，从而实现对场景的多样控制，如大范围相机移动、物体编辑和物体操作。

在过去的条件图像合成方法中，以生成逼真图像为目标的方法已取得了显著进展，特别是那些利用生成对抗网络（GANs）的方法。然而，现有方法主要限于以对象为中心的场景，并且在处理复杂且不对齐的城市场景时存在局限性。UrbanGIRAFFE则专注于城市场景，通过引入3D感知的生成模型，克服了这些限制，为大范围相机移动、物体编辑和物体操作提供了多样的可控性。

UrbanGIRAFFE的创新之处在于将城市场景巧妙地分解为无法计数的物体、可计数的对象和天空，利用先验分布来理清复杂的城市环境。该模型包括一个条件物体生成器，利用语义体素网格作为物体先验，以集成粗糙的语义和几何信息。通过在混乱的场景中学习对象生成器的对象布局先验，模型在对抗性和重构损失的端到端训练中得以优化，利用射线-体素和射线-盒交叉策略来优化采样位置，减少所需采样点的数量。

在全面的评估中，UrbanGIRAFFE方法在合成和真实数据集上超越了各种2D和3D基线，展示了出色的可控性和保真度。在KITTI-360数据集上进行的定性评估显示，UrbanGIRAFFE在背景建模方面优于GIRAFFE，实现了增强的物体编辑和相机视角控制。在KITTI-360上进行的剖析研究证实了UrbanGIRAFFE的架构组件的有效性，包括重构损失、对象判别器和创新的对象建模。在推断期间采用移动平均模型进一步提高了生成图像的质量。

UrbanGIRAFFE的未来工作包括引入语义体素生成器，以进行新颖场景采样，并通过光-环境颜色解缠来探索光照控制。文章强调了重构损失的重要性，以保持保真度并产生多样的结果，尤其是对于不经常遇到的语义类别。

该研究展示了UrbanGIRAFFE在处理具有挑战性的城市场景的可控3D感知图像合成问题方面的卓越成就，实现了在相机视角操作、语义布局和物体交互方面的卓越多功能性。通过利用3D全景先验，该模型有效地将场景分解为物体、物体和天空，促进了组合生成建模。未来的研究方向包括整合语义体素生成器以进行新颖场景采样，并通过光-环境颜色解缠来探索光照控制。 UrbanGIRAFFE通过在合成和实际数据集上进行全面评估，展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。

项目网址:https://github.com/freemty/urbanGIRAFFE

https://lv3d.github.io/urbanGIRAFFE/

论文:https://arxiv.org/abs/2303.14167

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
港大与浙大联合研发SC-GS模型鼠标拖拽实时可编辑3D重建

在数字资产创造和3D重建领域，香港大学CVMI实验室与3D大模型公司VAST以及浙江大学的联合研究团队提出了一项突破性成果——SC-GS模型。这一模型不仅在新视角合成领域掀起了革命性浪潮，更在动态场景的实时交互编辑方面展现了巨大潜力。他们期待在2024年看到更多基于高斯溅射技术的创新工作和探索。

SC-GS AI头条
Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型

Spline的最新3D生成工具的发布，标志着3D设计领域的一次重大进步。这款在线3D编辑工具不仅支持从文字和图片生成3D模型能够混合和编辑3D模型，为用户提供了一个全面强大的3D设计解决方案。这意味着用户可以始终接触到行业的最新趋势，并将这些新功能应用到自己的项目中，保持创作的前沿性和创新性。

3D模型 AI头条
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称，Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然，Tushnett教授指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。

Firefly Adobe AI头条
MoA：用于图片合成的混合注意力架构可实现风格参考和人物融合

在最新的研究中，提出了一种名为注意力混合模式的新架构，旨在个性化文本到图像扩散模型，可以实现风格参考和人物融合的效果。受大型语言模型中使用的专家混合机制的启发，MoA通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。这些应用展示了MoA在个性化图像生成领域的潜在价值和广泛适用性。

MoA AI头条
Lixel CyberColor：自动生成无限大的电影级效果的3D场景

LixelCyberColor，由XGRIDS公司研发的这款先进技术产品，正在为3D场景的创建带来革命性的变化。LCC能够自动生成具有电影级效果的无限大3D场景，这一成就得益于它采用的Multi-SLAM和高斯溅射技术。随着XGRIDS技术的不断进步，我们有理由相信，未来的虚拟世界将变得更加真实，更加引人入胜。

3D AI头条
业主吐槽效果图像鬼屋被回怼：提出解约退款遭拒

3月27日，湖南长沙的朱先生与某公司设计师方女士之间，因装修设计图的纠纷引发了关注。朱先生委托方女士为其200平米的复式住宅进行装修设计，双方在2023年12月22日签署了合同，并约定在2024年1月28日前交付包括平面图、效果图和施工图在内的全套设计图，总费用为6万元。也有人对于合同约定的细节和执行情况提出了质疑，认为在签订合同时应该更加明确双方的权利和义务，以避免类似的纠纷发生。

装修设计设计纠纷合同约定
Adobe发布新一代图像生成模型Firefly Image3，号称迄今为止最好

Adobe发布了Firefly图像生成模型的最新版本，名为FireflyImage3，声称具有“摄影细节”的图像生成能力。相比之前的版本，这一第三代模型在图像生成能力上有了显著的改进。即使是新手用户也可以在Photoshop中游刃有余，并更快地成为高级用户，PhotoshopgentechAI产品管理总监JohnMetzger表示。

Adobe FireflyImage3 AI头条
商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale，旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。扩散模型因其卓越的性能，已逐渐超越GAN和自回归模型，成为生成式模型的主流选择。定量和定性的实验对比表明，FouriScale能够在不同预训练模型，不同分辨率下都能够保证更高的图像生成质量。

FouriScale AI头条

今日大家都在搜的词：

热文

3 天
7天

浙大研究者提出UrbanGIRAFFE，解决城市场景的可控3D感知图像合成

今日大家都在搜的词：

热文

站长商机