多视角高斯模型LGM:5秒产出高质量3D物体支持图文到3D

2024-02-20 14:54 · 稿源：站长之家

**划重点:**
1. 🚀 北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合推出的 LGM 模型，以非对称 U-Net 为核心，仅需5秒即可从单视角图片或文本生成高分辨率高质量的3D物体。
2. 💻 代码和模型权重已在 GitHub 开源，附带在线 Demo 可供试玩。
3. 🌐 LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的挑战，支持 Text-to-3D 和 Image-to-3D 任务，同时提供了高效的 Mesh 转换方法。

站长之家（ChinaZ.com）2月20日消息:近期，由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型（LGM）引起广泛关注。

LGM 以其核心模块 Large Multi-View Gaussian Model 为基础，采用了一种新颖的方法，能够在仅5秒的时间内从单一视角图片或文本输入中生成高分辨率高质量的3D物体。该模型的技术亮点在于使用了高效轻量的非对称 U-Net 作为骨干网络，直接从四个视角的图片中预测高分辨率的高斯基元，并通过可微渲染技术呈现出任意视角下的3D效果。

在技术层面，LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的两大挑战。具体而言，它通过在低分辨率的特征图上使用跨视角的自注意力机制，实现了不同视角之间的相关性建模，同时保持了较低的计算开销。此外，为了训练阶段和推理阶段之间的数据一致性，研究者还提出了基于网格畸变的数据增强策略，有效模拟了多视角不一致性。

值得注意的是，在实现高分辨率下高效训练这类模型时，研究者克服了两个主要问题。

首先，通过基于 objaverse 数据集中渲染出的三维一致的多视角图片进行训练，然后在推理阶段使用已有模型从文本或图像中合成多视角图片。为了解决多视角不一致的问题，文章提出了基于网格畸变的数据增强策略。

其次，为了模拟推理阶段生成的多视角图片在相机视角三维几何上的一致性，研究者对三个视角的相机位姿进行了随机扰动，增强了模型的稳健性。

训练完成后，LGM 不仅通过现有的图像到多视角或者文本到多视角扩散模型实现了高质量的 Text-to-3D 和 Image-to-3D 任务，而且能够在给定相同输入文本或图像的情况下生成多样的高质量三维模型。为了进一步支持下游图形学任务，研究者还提出了一种高效的方法，将生成的高斯表征转换为平滑且带纹理的 Mesh。

LGM 模型在3D内容生成领域的性能和创新引起了广泛关注。其开源精神以及提供的在线 Demo 进一步促进了对该模型的实际应用和探索。

LGM产品特色:

1. 高分辨率生成：

- LGM专注于从文本提示或单视图图像生成高分辨率的3D模型。

- 通过引入多视图高斯特征作为有效而强大的表示，能够在训练期间提供不同可导渲染的高分辨率3D对象。

2. 3D表示方法:

- 使用多视图高斯特征作为主要的3D表示方法。

- 这种表示方法可以通过融合不同视图的特征进行可导渲染。

3. 3D骨架结构:

- 引入不对称的U-Net作为高吞吐量的骨干结构。

- 该骨干结构在多视图图像上操作，这些图像可以通过利用多视图扩散模型从文本或单视图图像输入中产生。

4. 快速生成速度:

- 能够在5秒内生成3D对象，保持了快速生成速度。

- 同时，在将训练分辨率提高到512的情况下，实现了高分辨率3D内容生成。

5. 多样性生成:

- 支持从图像和文本两种输入方式生成3D对象，实现了图文并茂的3D内容创作。

- 提供了多视图的扩散模型，有助于增加生成的多样性。

总体而言，LGM通过创新的3D表示和骨干结构，以及高效的训练方法，实现了在高分辨率3D内容生成方面的显著进展。

项目入口:https://top.aibase.com/tool/lgm

（举报）

相关推荐

关键词：

从心脏、到血管……3D打印开启“器官替换”时代

为了确保3D打印的人工器官能正常运行，必须让血管充分发挥功能。若无法稳定供血，人工器官的广泛使用根本无从谈起……

3D打印 3D打印心脏 3D打印血管
可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

可灵AI宣布全系列视频模型上线“视频音效”功能，用户在使用可灵AI进行视频创作时，不仅能获得高质量的视频画面，更能体验到与视频精准匹配、富有空间感的立体声音效……

可灵AI 可灵可灵AI新功能
省委常委、市委书记刘非调研思看科技，勉励思看勇攀3D视觉数字化科技高峰

省委常委、市委书记刘非赴杭州市余杭区调研科技创新工作，强调要深入学习贯彻重要指示精神，全面落实省委"一个首要任务、三个主攻方向、两个根本"总体部署。调研期间，刘非实地考察思看科技公司，详细了解其3D视觉数字化技术研发成果及在航天、大飞机等重大项目的应用情况，勉励企业要着眼世界前沿，加大创新力度，在3D视觉数字化领域实现更大突破。余杭�

科技创新共同富裕基层民主
小赢卡贷：数字金融赋能实体经济高质量发展

小赢卡贷深耕湾区沃土，通过"科技+金融"创新模式服务小微企业。其自主研发智能风控系统，构建多维风险评估模型，解决小微企业信用评估难题；开发差异化信贷产品，实现全流程数字化服务；通过科技降本增效，提供普惠利率。目前累计服务超百万湾区小微企业和个体工商户，成为区域经济重要推手。未来将持续加强AI、区块链等前沿技术研发，探索跨境金融、绿色金融等创新业务，深化产学研合作培育数字人才，助力大湾区金融科技高地建设，以科技赋能实体经济高质量发展。
如何用DeepSeek生成高质量的竞品SWOT分析报告

本教程介绍如何利用DeepSeek AI工具快速生成电商平台供应链SWOT分析报告。以京东vs拼多多为例，通过输入指定指令，AI可自动生成包含优势、劣势、机会和威胁四个维度的结构化分析报告，重点突出两者供应链能力差异。操作流程包括：1）登录DeepSeek官网进入对话界面；2）输入SWOT分析指令；3）获取AI生成结果。该方法能显著提升商业分析效率，建议结合最新行业数据对报告进�

竞品分析 SWOT分析市场策划
如何用DeepSeek快速起草高质量商务合作邮件

本文介绍如何利用DeepSeek AI快速生成专业商务合作邀约邮件。传统邮件撰写耗时费力，而通过该工具只需四步：1)登录官网输入指令；2)提供合作对象、内容等关键信息；3)AI自动生成结构清晰、措辞专业的邮件草稿；4)复制到邮箱发送或下载存档。该工具能显著提升商务沟通效率，特别适合需要频繁进行业务往来的职场人士，支持个性化调整并保留专业度，是现代化办公的高效解决方案。（139字）

商务沟通专业邮件合作邀约
每日互动：进一步开发数据要素价值推动城市交通高质量发展

浙江省数据局于2025年6月4日公告，浙江云通达数达科技成为省内首批省级公共数据授权运营单位，将开展"数智绿波"场景应用。该公司自2022年进入智慧交通领域，已在34个地区落地645条数智绿波带，使道路通行效率提升超20%。此次授权将推动其在规划建设、优化管理等方面持续发力，并通过数据API与科研单位等开展二次创新，赋能智能网联汽车"车路云一体化"项目建设。该授权是对公司在数据安全、技术能力等方面的认可，未来将继续深化数据融合与场景探索，助力城市交通高质量发展。（140字）

浙江省数据局公共数据授权数智交通
荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

本文介绍了AI领域最新动态：1)腾讯开源混元3D2.1大模型，提升3D生成质量；2)OpenAI Codex升级，优化代码生成功能；3)字节跳动AI Lab负责人李航卸任；4)微软发布700个AI应用案例；5)微软推出Code Researcher工具，解决58%系统崩溃问题；6)Observer AI实现屏幕操作自动化；7)Genspark发布AI浏览器；8)麻省理工用AI技术3.5小时修复15世纪名画；9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni；10)MagicTryOn视频换衣框架；11)字节跳动发布实时互动AI视频生成模型Seaweed APT2；12)ChatGPT搜索功能升级；13)字节跳动与老凤祥合作开发AI智能眼镜。

人工智能 3D生成开源大模型
荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

本文汇总了AI领域最新动态：1）阿里开源MNN+TaoAvatar技术，实现手机端3D数字人实时交互；2）MiniMax升级AI工具Agent，新增智能图像搜索和多语言支持；3）罗永浩数字人将登陆百度电商直播；4）OpenAI员工套现近30亿美元，软银成最大接盘方；5）ChatGPT推出深度研究和语音模式升级；6）Meta发布V-JEPA2模型，提升机器人环境适应能力；7）AMD与OpenAI合作推出新一代AI芯片；8）Google Gemini集成Imagen4图像生成模型；9）谷歌AI实现10公里级精准天气预报；10）Gartner预测到2028年80%的AI应用开发时间将缩短50%。

人工智能虚拟现实 3D数字人
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理

热文

3 天
7天

多视角高斯模型LGM:5秒产出高质量3D物体支持图文到3D

从心脏、到血管……3D打印开启“器官替换”时代

可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

省委常委、市委书记刘非调研思看科技，勉励思看勇攀3D视觉数字化科技高峰

小赢卡贷：数字金融赋能实体经济高质量发展

如何用DeepSeek生成高质量的竞品SWOT分析报告

如何用DeepSeek快速起草高质量商务合作邮件

每日互动：进一步开发数据要素价值推动城市交通高质量发展

荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米股票上热搜：盘中股价突破60港元创历史新高

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

小鹏G7官宣7月3日发布全球首款L3级算力车型

荣耀正式启动A股IPO 获上市辅导备案

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

站长商机

多视角高斯模型LGM:5秒产出高质量3D物体 支持图文到3D

热文

站长商机

多视角高斯模型LGM:5秒产出高质量3D物体支持图文到3D