首页 > 业界 > 关键词  > LGM最新资讯  > 正文

多视角高斯模型LGM:5秒产出高质量3D物体 支持图文到3D

2024-02-20 14:54 · 稿源:站长之家

**划重点:**

1. 🚀 北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合推出的 LGM 模型,以非对称 U-Net 为核心,仅需5秒即可从单视角图片或文本生成高分辨率高质量的3D物体。

2. 💻 代码和模型权重已在 GitHub 开源,附带在线 Demo 可供试玩。

3. 🌐 LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的挑战,支持 Text-to-3D 和 Image-to-3D 任务,同时提供了高效的 Mesh 转换方法。

站长之家(ChinaZ.com)2月20日 消息:近期,由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型(LGM)引起广泛关注。

LGM 以其核心模块 Large Multi-View Gaussian Model 为基础,采用了一种新颖的方法,能够在仅5秒的时间内从单一视角图片或文本输入中生成高分辨率高质量的3D物体。该模型的技术亮点在于使用了高效轻量的非对称 U-Net 作为骨干网络,直接从四个视角的图片中预测高分辨率的高斯基元,并通过可微渲染技术呈现出任意视角下的3D效果。

image.png

在技术层面,LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的两大挑战。具体而言,它通过在低分辨率的特征图上使用跨视角的自注意力机制,实现了不同视角之间的相关性建模,同时保持了较低的计算开销。此外,为了训练阶段和推理阶段之间的数据一致性,研究者还提出了基于网格畸变的数据增强策略,有效模拟了多视角不一致性。

image.png

值得注意的是,在实现高分辨率下高效训练这类模型时,研究者克服了两个主要问题。

首先,通过基于 objaverse 数据集中渲染出的三维一致的多视角图片进行训练,然后在推理阶段使用已有模型从文本或图像中合成多视角图片。为了解决多视角不一致的问题,文章提出了基于网格畸变的数据增强策略。

其次,为了模拟推理阶段生成的多视角图片在相机视角三维几何上的一致性,研究者对三个视角的相机位姿进行了随机扰动,增强了模型的稳健性。

训练完成后,LGM 不仅通过现有的图像到多视角或者文本到多视角扩散模型实现了高质量的 Text-to-3D 和 Image-to-3D 任务,而且能够在给定相同输入文本或图像的情况下生成多样的高质量三维模型。为了进一步支持下游图形学任务,研究者还提出了一种高效的方法,将生成的高斯表征转换为平滑且带纹理的 Mesh。

LGM 模型在3D内容生成领域的性能和创新引起了广泛关注。其开源精神以及提供的在线 Demo 进一步促进了对该模型的实际应用和探索。

LGM产品特色:

1. 高分辨率生成:

- LGM专注于从文本提示或单视图图像生成高分辨率的3D模型。

- 通过引入多视图高斯特征作为有效而强大的表示,能够在训练期间提供不同可导渲染的高分辨率3D对象。

2. 3D表示方法:

- 使用多视图高斯特征作为主要的3D表示方法。

- 这种表示方法可以通过融合不同视图的特征进行可导渲染。

3. 3D骨架结构:

- 引入不对称的U-Net作为高吞吐量的骨干结构。

- 该骨干结构在多视图图像上操作,这些图像可以通过利用多视图扩散模型从文本或单视图图像输入中产生。

4. 快速生成速度:

- 能够在5秒内生成3D对象,保持了快速生成速度。

- 同时,在将训练分辨率提高到512的情况下,实现了高分辨率3D内容生成。

5. 多样性生成:

- 支持从图像和文本两种输入方式生成3D对象,实现了图文并茂的3D内容创作。

- 提供了多视图的扩散模型,有助于增加生成的多样性。

总体而言,LGM通过创新的3D表示和骨干结构,以及高效的训练方法,实现了在高分辨率3D内容生成方面的显著进展。

项目入口:https://top.aibase.com/tool/lgm

举报

  • 相关推荐
  • 从心脏、到血管……3D打印开启“器官替换”时代

    为了确保3D打印的人工器官能正常运行,必须让血管充分发挥功能。若无法稳定供血,人工器官的广泛使用根本无从谈起……

  • 创想三维光固化3D打印机新品上市!618福利加码:购买指定款抽免单,60台3D打印机直接送

    创想三维旗下品牌PioCreat推出HALOT-X1光固化3D打印机,配备10.1英寸16K高分辨率屏幕和蜂巢矩阵光源,打印精度达0.05mm。新品采用智能分区曝光技术,搭配动光源+静平台结构,提升打印稳定性。618期间购机享多重优惠:参与免单抽奖、耗材多件多折,赠创想云VIP会员一年。K系列高速打印机支持600mm/s打印速度,K2 Plus Combo支持16色打印;Otter Lite扫描仪实现0.05mm精度无线扫描。全系产品覆盖教育、工业、创意等多场景需求,提供专业选购攻略。(注:具体活动规则以官方店铺为准)

  • 省委常委、市委书记刘非调研思看科技,勉励思看勇攀3D视觉数字化科技高峰

    省委常委、市委书记刘非赴杭州市余杭区调研科技创新工作,强调要深入学习贯彻重要指示精神,全面落实省委"一个首要任务、三个主攻方向、两个根本"总体部署。调研期间,刘非实地考察思看科技公司,详细了解其3D视觉数字化技术研发成果及在航天、大飞机等重大项目的应用情况,勉励企业要着眼世界前沿,加大创新力度,在3D视觉数字化领域实现更大突破。余杭�

  • 《王者荣耀》3D动画即将上映 露娜全新皮肤免费送

    王者荣耀铠动画剧集《王者荣耀:荣耀之章命运篇》3D动画剧集5月31日即将上映,剧中露娜为了哥哥也为了对抗家族命运继承了族长之位。 5月28日,《王者荣耀:荣耀之章命运篇》动画剧集主题版本开启,参与活动即领露娜全新皮肤命运加冕”!

  • 谷歌推出 Beam AI:将普通视频通话,转为逼真的 3D 沉浸式体验

    一位测试用户表示: “你甚至会忘记自己是在用科技交流。眼神是真实的,你能看出对方什么时候想说话,就像现实生活中一样。”

  • 小赢卡贷:数字金融赋能实体经济高质量发展

    小赢卡贷深耕湾区沃土,通过"科技+金融"创新模式服务小微企业。其自主研发智能风控系统,构建多维风险评估模型,解决小微企业信用评估难题;开发差异化信贷产品,实现全流程数字化服务;通过科技降本增效,提供普惠利率。目前累计服务超百万湾区小微企业和个体工商户,成为区域经济重要推手。未来将持续加强AI、区块链等前沿技术研发,探索跨境金融、绿色金融等创新业务,深化产学研合作培育数字人才,助力大湾区金融科技高地建设,以科技赋能实体经济高质量发展。

  • 如何用DeepSeek生成高质量的竞品SWOT分析报告

    本教程介绍如何利用DeepSeek AI工具快速生成电商平台供应链SWOT分析报告。以京东vs拼多多为例,通过输入指定指令,AI可自动生成包含优势、劣势、机会和威胁四个维度的结构化分析报告,重点突出两者供应链能力差异。操作流程包括:1)登录DeepSeek官网进入对话界面;2)输入SWOT分析指令;3)获取AI生成结果。该方法能显著提升商业分析效率,建议结合最新行业数据对报告进�

  • 如何用DeepSeek快速起草高质量商务合作邮件

    本文介绍如何利用DeepSeek AI快速生成专业商务合作邀约邮件。传统邮件撰写耗时费力,而通过该工具只需四步:1)登录官网输入指令;2)提供合作对象、内容等关键信息;3)AI自动生成结构清晰、措辞专业的邮件草稿;4)复制到邮箱发送或下载存档。该工具能显著提升商务沟通效率,特别适合需要频繁进行业务往来的职场人士,支持个性化调整并保留专业度,是现代化办公的高效解决方案。(139字)

  • 荣膺四项殊荣!安凯客车以创新实力引领商用车高质量发展

    安凯客车在"运输新生态高质量发展论坛暨2025中国商用车品牌营销盛典"上斩获四项行业殊荣,包括"重大赛事交通服务突出贡献单位"和"服务金口碑称号"两项服务类奖项,以及旗下N12豪华公路客车获"公路热销车型"、E12S双层观光巴士获"旅游金口碑称号"产品类奖项。N12凭借卓越品质批量交付新疆、山东等地高端旅游市场,并出口沙特;E12S创新文旅融合模式,已在北京、上海等城市及欧美多国投入运营。安凯以"精准响应、高效处理"服务理念构建全国服务网络,连续五届获服务品牌殊荣,并圆满完成北京奥运会等重大国事交通保障任务。未来将持续以"绿智赋能"为驱动,推动中国客车全球化发展。

  • 每日互动:进一步开发数据要素价值 推动城市交通高质量发展

    浙江省数据局于2025年6月4日公告,浙江云通达数达科技成为省内首批省级公共数据授权运营单位,将开展"数智绿波"场景应用。该公司自2022年进入智慧交通领域,已在34个地区落地645条数智绿波带,使道路通行效率提升超20%。此次授权将推动其在规划建设、优化管理等方面持续发力,并通过数据API与科研单位等开展二次创新,赋能智能网联汽车"车路云一体化"项目建设。该授权是对公司在数据安全、技术能力等方面的认可,未来将继续深化数据融合与场景探索,助力城市交通高质量发展。(140字)