首页 > 业界 > 关键词  > LGM最新资讯  > 正文

多视角高斯模型LGM:5秒产出高质量3D物体 支持图文到3D

2024-02-20 14:54 · 稿源:站长之家

**划重点:**

1. 🚀 北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合推出的 LGM 模型,以非对称 U-Net 为核心,仅需5秒即可从单视角图片或文本生成高分辨率高质量的3D物体。

2. 💻 代码和模型权重已在 GitHub 开源,附带在线 Demo 可供试玩。

3. 🌐 LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的挑战,支持 Text-to-3D 和 Image-to-3D 任务,同时提供了高效的 Mesh 转换方法。

站长之家(ChinaZ.com)2月20日 消息:近期,由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型(LGM)引起广泛关注。

LGM 以其核心模块 Large Multi-View Gaussian Model 为基础,采用了一种新颖的方法,能够在仅5秒的时间内从单一视角图片或文本输入中生成高分辨率高质量的3D物体。该模型的技术亮点在于使用了高效轻量的非对称 U-Net 作为骨干网络,直接从四个视角的图片中预测高分辨率的高斯基元,并通过可微渲染技术呈现出任意视角下的3D效果。

image.png

在技术层面,LGM 解决了有限计算量下高效3D表征和高分辨率下的三维骨干生成网络的两大挑战。具体而言,它通过在低分辨率的特征图上使用跨视角的自注意力机制,实现了不同视角之间的相关性建模,同时保持了较低的计算开销。此外,为了训练阶段和推理阶段之间的数据一致性,研究者还提出了基于网格畸变的数据增强策略,有效模拟了多视角不一致性。

image.png

值得注意的是,在实现高分辨率下高效训练这类模型时,研究者克服了两个主要问题。

首先,通过基于 objaverse 数据集中渲染出的三维一致的多视角图片进行训练,然后在推理阶段使用已有模型从文本或图像中合成多视角图片。为了解决多视角不一致的问题,文章提出了基于网格畸变的数据增强策略。

其次,为了模拟推理阶段生成的多视角图片在相机视角三维几何上的一致性,研究者对三个视角的相机位姿进行了随机扰动,增强了模型的稳健性。

训练完成后,LGM 不仅通过现有的图像到多视角或者文本到多视角扩散模型实现了高质量的 Text-to-3D 和 Image-to-3D 任务,而且能够在给定相同输入文本或图像的情况下生成多样的高质量三维模型。为了进一步支持下游图形学任务,研究者还提出了一种高效的方法,将生成的高斯表征转换为平滑且带纹理的 Mesh。

LGM 模型在3D内容生成领域的性能和创新引起了广泛关注。其开源精神以及提供的在线 Demo 进一步促进了对该模型的实际应用和探索。

LGM产品特色:

1. 高分辨率生成:

- LGM专注于从文本提示或单视图图像生成高分辨率的3D模型。

- 通过引入多视图高斯特征作为有效而强大的表示,能够在训练期间提供不同可导渲染的高分辨率3D对象。

2. 3D表示方法:

- 使用多视图高斯特征作为主要的3D表示方法。

- 这种表示方法可以通过融合不同视图的特征进行可导渲染。

3. 3D骨架结构:

- 引入不对称的U-Net作为高吞吐量的骨干结构。

- 该骨干结构在多视图图像上操作,这些图像可以通过利用多视图扩散模型从文本或单视图图像输入中产生。

4. 快速生成速度:

- 能够在5秒内生成3D对象,保持了快速生成速度。

- 同时,在将训练分辨率提高到512的情况下,实现了高分辨率3D内容生成。

5. 多样性生成:

- 支持从图像和文本两种输入方式生成3D对象,实现了图文并茂的3D内容创作。

- 提供了多视图的扩散模型,有助于增加生成的多样性。

总体而言,LGM通过创新的3D表示和骨干结构,以及高效的训练方法,实现了在高分辨率3D内容生成方面的显著进展。

项目入口:https://top.aibase.com/tool/lgm

举报

  • 相关推荐
  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 淘宝用AI给电商搜索趟了条新路

    ​众所周知 ,最近两个月,淘宝搜索的AI化有了明显的提速趋势。 8月,淘宝低调全量上线了“AI万能搜”产品;9月,淘宝“AI助手”传出内测消息、拍立淘的“AI找低价”也全量上线。 这三个产品分别覆盖了传统搜索入口,图片搜索入口、以及搜索页面呈现后的交互,算是在淘宝端内形成了一个围绕搜索场景的能力矩阵。 前段时间,硅星人也拿到了“AI助手”的内测资格,我

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地

    阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点,提出全链路解决方案。数据显示,77%全球中小企业已定期使用AI工具,中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架,降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”,博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业,助力企业从“有算力”到“能落地”,推动AI应用成为行业常态。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 行业抢滩的AI漫剧,又有哪些新变化

    9月24日刚结束的北京文化论坛上,AI漫剧作为新样态被概括有以下三大特征:更低的生产成本,更年轻的用户群体,更高的付费效率。 受抖音、B站、快手、红果等多平台的加码垂青,漫剧可以说是当前内容市场最新、最受关注的一大风向内容。脱胎于动态漫,曾于垂直漫画平台及长视频平台「夹缝求生」近十年的动漫短剧并非新品类,但对于目前众内容平台而言却是新的增量�

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 千亿AI玩具市场:当IP被AI“唤醒”,玩具厂商如何开辟新赛道?

    过去两年AI技术热度飙升,从ChatGPT爆发到谷歌、Meta频发新一代大模型,AI已切实改变生活方式。传统玩具行业正孕育智能化尝试,迪士尼与乐森机器人合作推出Mini Robot智能潮玩,通过“通用底座+可替换IP公仔”平台化设计,结合机器人技术与情感交互,打破单一产品逻辑。该产品支持动作编程、语音定制及UGC内容共享,推动玩具从“产品消费”转向“情绪消费”,成为连接虚拟与现实的新型生命体。

今日大家都在搜的词: