新型3D生成方法DMV3D:使用基于Transformer的3D大型重建模型进行去噪

2023-12-07 17:57 · 稿源：站长之家

**划重点:**
1. 💡 DMV3D是一种单阶段的、类别不可知的扩散模型，能够通过直接模型推理从文本或单一图像输入条件生成3D神经辐射场（NeRFs），显著缩短了创建3D对象所需的时间。
2. 💡 DMV3D集成了3D NeRF重建和渲染到其去噪器中，创建了一个在没有直接3D监督的情况下训练的2D多视图图像扩散模型，消除了为潜在空间扩散单独训练3D NeRF编码器的需要。
3. 💡 基于大型Transformer模型，研究人员通过近期的3D大型重建模型（LRM）构建了一个新颖的联合重建和去噪模型，能够处理扩散过程中的各种噪声水平。

站长之家（ChinaZ.com）12月7日消息:近期，Adobe研究人员与斯坦福大学团队联合提出了一种名为DMV3D的全新3D生成方法。该方法旨在解决增强现实（AR）、虚拟现实(VR)、机器人技术和游戏等领域中3D资产创建的共同挑战。尽管3D扩散模型在简化复杂的3D资产创建过程方面变得越来越受欢迎，但它们需要访问用于训练的地面真实3D模型或点云，这对于真实图像而言是一项挑战。

现有的解决方案虽然可以解决这一挑战，但通常需要大量手动工作和优化过程。因此，Adobe研究人员与斯坦福大学团队一直致力于使3D生成过程更快、更真实和更通用。他们近期发布的论文介绍了一种新的方法，即DMV3D，这是一种单阶段的、类别不可知的扩散模型。

DMV3D的关键贡献包括使用多视图2D图像扩散模型进行3D生成的开创性单阶段扩散框架。同时，引入了大型重建模型（LRM），这是一种多视图去噪器，可以从嘈杂的多视图图像中重建无噪音的三平面NeRFs。该模型提供了一个通用的概率方法，用于高质量的文本到3D生成和单图像重建，实现了快速的直接模型推理，在单个A100GPU上仅需约30秒。

DMV3D将3D NeRF重建和渲染集成到其去噪器中，创建了一个在没有直接3D监督的情况下训练的2D多视图图像扩散模型。这消除了为潜在空间扩散单独训练3D NeRF编码器的需要，并简化了每个资产的优化过程。研究人员巧妙地使用了围绕物体的四个多视图图像的稀疏集合，有效地描述了一个3D对象，而没有明显的自遮挡问题。

通过利用大型Transformer模型，研究人员解决了稀疏视图3D重建的挑战性任务。基于最近的3D大型重建模型（LRM），他们引入了一种新颖的联合重建和去噪模型，能够处理扩散过程中的各种噪声水平。在大规模合成渲染和真实捕获的数据集上进行训练，DMV3D在单个A100GPU上展示了在约30秒内生成单阶段3D的能力。它在单图像3D重建方面取得了最新的成果。

该研究为通过统一3D重建和生成的2D和3D生成模型的领域之间的鸿沟，以解决3D视觉和图形领域中的各种挑战，提供了新的视角和可能性。

项目网址:https://justimyhxu.github.io/projects/dmv3d/

论文网址:https://arxiv.org/abs/2311.09217

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型

Spline的最新3D生成工具的发布，标志着3D设计领域的一次重大进步。这款在线3D编辑工具不仅支持从文字和图片生成3D模型能够混合和编辑3D模型，为用户提供了一个全面强大的3D设计解决方案。这意味着用户可以始终接触到行业的最新趋势，并将这些新功能应用到自己的项目中，保持创作的前沿性和创新性。

3D模型 AI头条
Garment3DGen：用衣服图片就能生成逼纹理效果的3D模型

研究人员提出了一种名为Garment3DGen的方法，旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法，为用户提供了一个简单高效的工具，用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广，我们有理由相信，未来的服装设计将更加多样化和个性化。

Garment3DGen AI头条
Interactive3D：可直接通过交互操作指导3D模型生成

Interactive3D技术为3D内容的创造和修改提供了一种极其灵活的方法。用户可以直接通过交互操作来指导3D模型的生成，这一过程不仅直观具有高度的创造性。无论是专业的3D设计师还是业余爱好者，都能通过这一技术轻松实现自己的创意构想。

3D模型 AI头条
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
港大与浙大联合研发SC-GS模型鼠标拖拽实时可编辑3D重建

在数字资产创造和3D重建领域，香港大学CVMI实验室与3D大模型公司VAST以及浙江大学的联合研究团队提出了一项突破性成果——SC-GS模型。这一模型不仅在新视角合成领域掀起了革命性浪潮，更在动态场景的实时交互编辑方面展现了巨大潜力。他们期待在2024年看到更多基于高斯溅射技术的创新工作和探索。

SC-GS AI头条
荐首个基于SSM-Transformer混合架构，开源商业大模型Jamba

3月29日，知名AI研究实验室AI21在官网开源了，首个基于SSM-Transformer混合架构的商业大模型——Jamba。ChatGPT、StableDifusion、Lyria等产品使用的皆是Transformer架构，虽然在捕捉序列内长距离依赖关系、泛化能力、特征提取等方面非常优秀，但在处理长序列、训练大参数模型时存在AI算力消耗大、过拟合、内存占用大等缺点。耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使�

大模型
GRM：只需少量图片，就能在0.1秒内创建3D模型

一款名为GRM的大型高斯重建模型引起了广泛关注。GRM是一种用于3D重建和生成的技术，通过有效整合多视角信息，它能够在极短的时间内重建出精确的3D模型。随着技术的不断发展，我们有理由相信，GRM将为3D建模技术的应用带来更多可能性。

GRM 3D模型 AI头条
荐谷歌更新Transformer架构，更节省计算资源！50%性能提升

谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths，改变了以往Transformer计算模式。这篇论文目前被引次数超过3500次，论文核心定义了Inductivebias概念。

Transformer 谷歌 AI
InstantMesh：只需10秒就能从图片转3D模型

InstantMesh是一项突破性的技术，能够从单张图像快速生成高质量的三维网格模型。这项技术利用了前馈框架，结合了多视图扩散模型和基于大规模重建模型的稀疏视图重建技术，极大地优化了3D资产的创建过程。InstantMesh的出现，预示着3D建模和可视化领域将迎来新的变革，它将极大地提高工作效率，降低技术门槛，使得更多的人能够参与到3D内容的创作中来。

InstantMesh 3D模型 AI头条
DiffHuman官网体验入口 3D人体建模软件使用方法教程指南

DiffHuman是一种概率性的光度逼真的3D人体重建方法。它可以从单张RGB图像预测一个3D人体重建的概率分布，并通过迭代降噪采样多个细节丰富、色彩鲜明的3D人体模型。要获取更多详细信息并开始使用DiffHuman，请访问DiffHuman官方网站。

DiffHuman

今日大家都在搜的词：

热文

3 天
7天

新型3D生成方法DMV3D:使用基于Transformer的3D大型重建模型进行去噪

今日大家都在搜的词：

热文

站长商机