多视角高斯模型LGM:5秒产出高质量3D物体支持图文到3D

2024-02-20 14:54 · 稿源：站长之家

**划重点:**
1. 🚀 北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合推出的 LGM 模型，以非对称 U-Net 为核心，仅需5秒即可从单视角图片或文本生成高分辨率高质量的3D物体。
2. 💻 代码和模型权重已在 GitHub 开源，附带在线 Demo 可供试玩。
3. 🌐 LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的挑战，支持 Text-to-3D 和 Image-to-3D 任务，同时提供了高效的 Mesh 转换方法。

站长之家（ChinaZ.com）2月20日消息:近期，由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型（LGM）引起广泛关注。

LGM 以其核心模块 Large Multi-View Gaussian Model 为基础，采用了一种新颖的方法，能够在仅5秒的时间内从单一视角图片或文本输入中生成高分辨率高质量的3D物体。该模型的技术亮点在于使用了高效轻量的非对称 U-Net 作为骨干网络，直接从四个视角的图片中预测高分辨率的高斯基元，并通过可微渲染技术呈现出任意视角下的3D效果。

在技术层面，LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的两大挑战。具体而言，它通过在低分辨率的特征图上使用跨视角的自注意力机制，实现了不同视角之间的相关性建模，同时保持了较低的计算开销。此外，为了训练阶段和推理阶段之间的数据一致性，研究者还提出了基于网格畸变的数据增强策略，有效模拟了多视角不一致性。

值得注意的是，在实现高分辨率下高效训练这类模型时，研究者克服了两个主要问题。

首先，通过基于 objaverse 数据集中渲染出的三维一致的多视角图片进行训练，然后在推理阶段使用已有模型从文本或图像中合成多视角图片。为了解决多视角不一致的问题，文章提出了基于网格畸变的数据增强策略。

其次，为了模拟推理阶段生成的多视角图片在相机视角三维几何上的一致性，研究者对三个视角的相机位姿进行了随机扰动，增强了模型的稳健性。

训练完成后，LGM 不仅通过现有的图像到多视角或者文本到多视角扩散模型实现了高质量的 Text-to-3D 和 Image-to-3D 任务，而且能够在给定相同输入文本或图像的情况下生成多样的高质量三维模型。为了进一步支持下游图形学任务，研究者还提出了一种高效的方法，将生成的高斯表征转换为平滑且带纹理的 Mesh。

LGM 模型在3D内容生成领域的性能和创新引起了广泛关注。其开源精神以及提供的在线 Demo 进一步促进了对该模型的实际应用和探索。

LGM产品特色:

1. 高分辨率生成：

- LGM专注于从文本提示或单视图图像生成高分辨率的3D模型。

- 通过引入多视图高斯特征作为有效而强大的表示，能够在训练期间提供不同可导渲染的高分辨率3D对象。

2. 3D表示方法:

- 使用多视图高斯特征作为主要的3D表示方法。

- 这种表示方法可以通过融合不同视图的特征进行可导渲染。

3. 3D骨架结构:

- 引入不对称的U-Net作为高吞吐量的骨干结构。

- 该骨干结构在多视图图像上操作，这些图像可以通过利用多视图扩散模型从文本或单视图图像输入中产生。

4. 快速生成速度:

- 能够在5秒内生成3D对象，保持了快速生成速度。

- 同时，在将训练分辨率提高到512的情况下，实现了高分辨率3D内容生成。

5. 多样性生成:

- 支持从图像和文本两种输入方式生成3D对象，实现了图文并茂的3D内容创作。

- 提供了多视图的扩散模型，有助于增加生成的多样性。

总体而言，LGM通过创新的3D表示和骨干结构，以及高效的训练方法，实现了在高分辨率3D内容生成方面的显著进展。

项目入口:https://top.aibase.com/tool/lgm

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
媒体聚焦！思看科技3D视觉数字化赋能中国制造高质量发展

制造业是国民经济的中流砥柱，是现代化经济体系的重要支柱。党的二十届三中全会提出，“加快推进新型工业化，培育壮大先进制造业集群，推动制造业高端化、智能化、绿色化发展。思看科技将继续秉承创新驱动发展的理念，砥砺奋进，深化科技创新，加强成果转化，不断提升新质生产力的转化效率和质量，为推动全球产业升级和经济高质量发展贡献更大的科技力量。

制造业智能制造高端制造
荐上海科大等开源创新模型：文本生成精美3D服装

上海科技大学、宾夕法尼亚大学、Deemos科技和NeuDim科技的研究人员联合推出了一个创新模型DressCode。用户通过DressCode只需要输入文本就能生成各种精美的3D服装模型，例如，一件法式蕾丝边的连衣裙;红色丝绸的睡衣等。所有预览都是可视化操作，用户可以通过简单的操作旋转、缩放、平移3D模型，从多个角度审视服装细节，这对于那些非专业设计人员来说非常有帮助。

DressCode 3D服装生成 AR/VR设计
荐AI日报：谷歌推Gemini 1.5 Pro实验版本0801；图像生成开源模型FLUX1横空出世；极速3D图像生成模型Stable Fast 3D发布；阿里语音合成模型CosyVoice更新

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌推超强多模态模型实验版Gemini1.5Pro，排名领先GPT-4o、Claude-3.5Sonnet谷歌今天推出了Gemini1.5Pro实验版本0801，在人工智能领域取得重大突破。ItiNera系统通过结合空间优化与大型语言模型，提供个性化的城市行程规划服务，为旅行者带来全新的探索城市方式。

Gemini 1.5 Pro
微软：画图3D应用将于11月4日下架市场反响未达预期

微软公司近日正式宣告，其Windows操作系统内置的创意工具画图3D”应用，将于11月4日起停止接收任何后续版本更新，并计划从MicrosoftStore中全面撤除。这一决定标志着微软在3D内容创作领域的一次战略调整。尽管画图3D”的退场令人惋惜，但微软在画图”应用上的持续创新与升级，无疑为广大用户开启了更加丰富多彩的创作旅程。

微软 Windows 画图3D
亚马逊Prime Day后，用赛狐ERP，3步实现高质量复盘

今年PrimeDay，销售额、销量再次刷新历史纪录，来自亚马逊官方数据显示，包括中国卖家在内，以中小企业为主的全球第三方卖家售出了超过2亿件商品，成为了有史以来最大的一届旺季狂欢。运营逃不过各种复盘总结。赛狐ERP运营计划，从绩效管理、日常复盘、新品规划、以及海量店铺的产品管理等维度，助力亚马逊卖家高效复盘PrimeDay，实现精细化运营。

Prime Day 销量突破
小伙连续熬夜打黑神话悟空致3D眩晕症医生提醒：还有其它损害

快科技8月25日消息，《黑神话：悟空》发售后爆火，不少玩家开始连夜爆肝，但有些发烧友，精神上扛得住，身体却受不住了。据报道，江苏的游戏爱好者小陈，因近期连续熬夜打游戏玩《黑神话：悟空》，致使自己出现眩晕、视物重影的症状。经过医院检查，小陈这种情况叫做视觉诱发晕动症”，是看3D屏幕引发的3D眩晕症。而《黑神话：悟空》游戏中，全程为3D动画界面，如果玩家长时间、通宵游玩，很容易引发3D眩晕症。医生提醒：久坐打游戏还可能导致颈椎病、下肢静脉血栓、睡眠不足等，适度游戏，切勿沉迷！不过，按照《黑神话：悟空》当前的热?

黑神话：悟空 3D游戏视觉诱发晕动症
含《流浪地球2》3D版 11部电影定档中秋档

快科技8月20日消息，据灯塔专业版，今年中秋档已定档11部新片!值得一提是，这11部影片中包括两部《流浪地球2》相关的电影，一部是《流浪地球2》（3D版），另一部是《流浪地球2:再次冒险》，均定档9月15日中秋节同步上映。截至目前《流浪地球2》票房40.29亿元，居票房榜第10位。电影中有核弹炸毁月球的戏码，在中秋节上映，可以说非常应景”了。这11部影片及上市日期如�

电影中秋档流浪地球2
从高质量的供应链，透视一个正在变化的海辰储能

商业世界中的赢家，总会被贴上许多耀眼的标签，比如果敢的决策、深入人心的营销，仿佛这就是其成功的全部秘籍。但一家企业的长久胜出，不仅是看得到的冰山一角，更多的却是依靠冰山下的产业生态。等未来海辰供应链4.0版本到来，也许又能给行业全新的启发，但就当下言，海辰储能更会务实走好眼前每一步，在坚持中走向下一个远点。

新能源供应链海辰储能
数字经济引领高质量发展，量化派积极践行

日前，国家统计局发布了上半年我国经济运行的情况。数据显示，上半年我国国内生产总值（GDP）达到了616， 836 亿元，按照不变价格进行计算，实现了5.0%的同比增长。与此同时，各地也纷纷公布了上半年经济发展的成绩单，其中数字经济相关领域成为了成绩单上的亮点。具体来看，上半年北京的数字经济增加值实现了7.8%的同比增长，浙江数字经济核心产业的增幅也高于一季�

中国经济数字经济 GDP增长
扫描“红色文物”，致敬峥嵘岁月 | 3D数字化助力文物保护与传播

八一建军节，是中国人民解放军的节日，也是全中国人民共同缅怀先烈、铭记历史的日子。在这个特殊的日子里，我们不仅回顾了我军的光辉历程，也进一步意识到了保护和传承革命文物的重要性。我们期待在未来，科技不断创新发展，让文物保护拥有更坚实的依靠，让厚重的历史文化穿越时空，在数字世界得以永续保存。

八一建军节数字化保护遵义会议纪念馆

BNA:多功能AI超级应用，涵盖社交、电商、娱乐和教育。

BNA AI Super App是一款集成了多种智能服务的超级应用，它不仅提供社交功能，如分享帖子、写博客、聊天和视频通话，还涵盖了AI电商和娱乐服务。此外，该应用还提供40种语言的AI教学服务，帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持，满足了不同用户群体的需求。

AI 多语言学习社交

Elisi:高效能自主层级式计划助手

Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明，帮助用户将梦想转化为清晰的结果，分解成可实现的里程碑，并通过AI技术理解并适应用户的个人需求，确保每一天都更有条理和高效。Elisi 致力于提供便捷服务，主要功能套件完全免费。

个人成长时间管理目标设定

Omi AI:个性化AI助手，记录每一刻，与AI对话获取反馈。

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

AI助手语音转录隐私保护

MeowMail:高送达率的AI电子邮件营销工具

MeowMail是一款集成在Shopify后台的电子邮件营销应用，利用AI技术自动选择最佳发送时间，提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件，并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能，帮助商家以低成本实现高效的邮件营销。

邮件营销 AI技术 Shopify应用

Maia 100:微软定制AI加速器，专为大规模AI工作负载设计。

Maia 100是微软为Azure设计的首款定制AI加速器，专为大规模AI工作负载而打造，通过软硬件的协同优化，实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术，具备高达1.8TB/s的带宽和64GB的容量，支持高达700W的热设计功耗(TDP)，但以500W运行，确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量，支持多种数据类型和张量切分方案，并通过以太网互连支持大规模AI模型。此外，Maia SDK提供了丰富的组件，支持快速部署PyTorch和Triton模型，并通过双编程模型确保高效的数据处理和同步。

AI加速器 Azure 大规模计算

LTM:超长上下文模型，革新软件开发

Magic团队开发的超长上下文模型（LTM）能够处理高达100M tokens的上下文信息，这在AI领域是一个重大突破。该技术主要针对软件开发领域，通过在推理过程中提供大量代码、文档和库的上下文，极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比，LTM模型在存储和检索大量信息方面具有明显优势，能够构建更复杂的逻辑电路。此外，Magic团队还与Google Cloud合作，利用NVIDIA GB200 NVL72构建下一代AI超级计算机，进一步推动模型的推理和训练效率。

AI 软件开发上下文推理

EZ-work AI文档翻译:智能AI翻译，高效文档语言转换助手。

EZ-work AI文档翻译是一款专注于文档翻译的在线服务，支持多种语言的翻译，包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术，如gpt-4o-mini和deepseek-chat模型，为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业，尤其在国际交流和学术研究领域尤为重要。

翻译 AI 文档处理

Watson AI:会议助手，自动记录并总结会议要点。

Watson AI是一款会议助手应用程序，它通过录制系统音频和麦克风来转录和总结会议内容，自动提取行动项和会议摘要，帮助用户更高效地进行会议记录和回顾。

会议助手自动记录效率工具

PicTech AI: 免费在线AI图片翻译助力跨境电商

PicTech AI是由学以致用科技旗下的智能图像工具品牌，专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术，实现高准确率和高清晰度的图片翻译，支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能，能够准确检测图片主体边缘，一键去除背景，无需专业编辑。产品背景信息显示，其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成，具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程，提高效率，无需懂外语或图像处理技能即可使用。

AI翻译跨境电商智能抠图

AnythingLLM:一站式AI应用，支持多种文档和模型。

AnythingLLM是一个多功能的桌面客户端，支持多种语言模型（LLM）和文档类型，提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型，如GPT-4、Llama、Mistral等。产品支持一键安装，本地运行，无需互联网连接，保护用户隐私。

AI 文档处理隐私保护

林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜，提供了多维度的评估和排名，帮助用户更好地了解和选择适合的大模型产品。

大模型排行榜多维度评估

Fluximg.com:AI文本到图像生成器，支持多尺寸和自动翻译。

Fluximg.com是一个基于Flux模型的AI图像生成网站，提供从文本到图像的转换服务。它支持多种语言，包括中文和英文，并且具有用户友好的界面。网站提供免费和专业版本，使用户能够根据自己的需求选择不同的服务级别。

AI图像生成多尺寸自动翻译

现代文转古文:将现代汉语转化为古汉语，提升文采。

现代文转古文是一款能够将现代汉语自动转换为古汉语的模型，它通过先进的自然语言处理技术，使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值，还能在教育、文学创作、文化传承等方面发挥重要作用。

古文文学转换

Zamba2-mini:先进的小型语言模型，专为设备端应用设计。

Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型，专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时，实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术，具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色，与Phi3-3.8B等更大模型相比，具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外，该模型的权重已开源发布(Apache 2.0)，允许研究人员、开发者和公司利用其能力，推动高效基础模型的边界。

多视角高斯模型LGM:5秒产出高质量3D物体 支持图文到3D

今日大家都在搜的词：

热文

站长商机

多视角高斯模型LGM:5秒产出高质量3D物体支持图文到3D