只需 10 秒！WonderWorld AI 实现单张图片实时生成 3D 场景

2024-10-09 11:47 · 来源： AIbase基地

最近，斯坦福大学和麻省理工学院的研究人员共同开发了一种名为 WonderWorld 的 AI 系统，它能够从单张图片实时生成3D 场景。这项新技术使用户可以逐步构建和探索虚拟环境，轻松控制生成场景的内容和布局。

WonderWorld 的最大挑战在于实现快速的3D 场景生成。以往的方法通常需要几分钟到几小时的时间来生成一个场景，而 WonderWorld 则能在仅仅10秒内在 Nvidia A6000GPU 上生成一个新的3D 环境。这种速度使得实时交互成为可能，标志着该领域的重大进步。

WonderWorld 的工作原理是，从输入的图片开始，生成一个初步的3D 场景。接着，系统进入一个循环，交替生成场景图像和相应的 FLAGS 表示。用户可以通过移动相机来控制新场景的生成，并使用文本输入指定想要的场景类型。

值得一提的是，FLAGS 表示由三个层次组成:前景、背景和天空。每一层包含一组被称为 “surfels” 的元素，它们根据3D 位置、方向、比例、透明度和颜色来定义。这些 surfels 通过估计深度和法线图进行初始化，然后经过优化以创建最终的场景。

为了减少场景转换时的几何失真，WonderWorld 采用了一种引导深度扩散过程。这种方法使用预训练的深度图扩散模型，调整深度估计以匹配场景现有部分的几何形状。

实验表明，WonderWorld 在速度和视觉质量方面明显优于以前的3D 场景生成方法。在用户研究中，生成的场景被认为比其他方法生成的场景更具视觉说服力。

虽然 WonderWorld 在速度和视觉质量上显著优于以往的方法，但它仍然有一些局限性。比如，它只能创建前向表面，限制了用户在虚拟世界中的移动角度在大约45度以内。此外，生成的世界目前看起来像是纸片剪影，而在处理像树这样的细节物体时，可能会出现 “洞” 或 “漂浮” 元素的现象。

尽管存在这些限制，研究人员仍然对 WonderWorld 的潜力充满信心，尤其是在游戏开发、虚拟现实和动态虚拟世界的创建方面。用户在研究中评价生成的场景视觉效果更具说服力，显示了这项技术的广泛应用前景。

项目入口：https://kovenyu.com/wonderworld/

划重点:
🌟 WonderWorld AI 能够仅用一张照片实时生成3D 场景，速度快至10秒。
🎮 该系统支持用户控制场景内容和布局，适合游戏开发和虚拟现实应用。
🚧 当前技术存在一定局限，主要表现为只能生成前向表面和细节处理不足。

相关推荐

ZEGO AI Agent：支持一张图生成数字人

即构科技推出AI Agent2.4，用户只需上传一张正面照即可生成1080P高清数字人，支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应，唇形同步准确，支持文本/音频/语音流驱动。适用于教育、客服等场景，提供API灵活定制，实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎，在生成效率、拟真度方面显著提升，带来低门槛、高沉浸的数字人互动体验。
微信iOS又有新功能聊天终于能发实况图片了

日前，微信iOS版又迎来新功能与好友聊天支持发送实况照片，目前为灰度测试阶段。据了解，使用该功能需要将微信iOS更新至8.0.61版本及以上，默认实况为关闭状态，发送照片时点击进入大图预览页面可手动开启单个照片的实况开关。

微信更新 iOS功能实况照片
视觉中国战投企业景致三维：启动深圳首家3D数字技术订单班

视觉中国战略投资企业景致三维联合深圳携创高级技工学校，于2025年7月22日启动深圳首家"3D梦工场订单班"。该项目针对3D数字技术人才缺口，定向培养逆向工程师、动画师、渲染师等紧缺人才。课程引入亚马逊、京东等真实商业项目案例，学生将系统学习3ds Max、Maya等主流工具，并考取职业资格证书。学习期间企业提供奖学金和带薪实习，毕业生考核合格可直接入职景�

视觉中国 3D数字技术景致三维
高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

阿里巴巴旗下高德地图正式上线创新AR打卡功能，通过深度整合AI技术与地图服务，为用户带来虚实融合的沉浸式打卡体验，无缝连接现实世界。该功能依托前沿AI空间融合技术，突破传统二维地图限制，首创3D立体打卡。用户打开最新版高德地图App，点击右上角 ”号即可轻松开启AR之旅。支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式，完成打卡后系统将自动生成并
三维天地AI智能体应用落地场景：一键生成的“编译工厂”

文章分析了当前软件开发行业面临的三大痛点：1)软件需求激增与开发人才短缺的矛盾；2)传统开发流程中需求分析、编码等环节效率低下；3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案，该方案通过自然语言处理技术，将结构化需求文档自动转换为可执行代码，显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在：开发周期从天级缩短至分钟级；降低60%人力成本；代码风格统一规范；减少人为错误；沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
AI编程终于“开箱即用”了？Qwen3-Coder或许是那个质变节点

7月23日，阿里通义团队正式发布Qwen3-Coder-480B-A35B-Instruct，这可能是AI编程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构，原生支持256K上下文，可扩展至1M token，在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA，性能直接对标Claude Sonnet-4。

Qwen3-Coder AI编程参数模型
用AI绘图开发游戏，一天就可完成一个游戏！

文章介绍了一款融合《饥荒》诡异画风与密室逃脱玩法的解谜冒险游戏《密室求生》。游戏通过Holopix AI工具制作素材，解决了独立开发者面临的素材获取难题：1）AI可快速生成统一风格的场景、角色和道具图标；2）支持文生图功能，通过详细提示词优化生成效果；3）提供丰富的微调功能，包括五官调整、明暗调节等；4）支持线稿提取、智能扩图等实用功能。该工具能有效降�

饥荒密室逃脱解谜游戏

今日大家都在搜的词：

热文

3 天
7天

只需 10 秒！WonderWorld AI 实现单张图片实时生成 3D 场景

ZEGO AI Agent：支持一张图生成数字人

微信iOS又有新功能聊天终于能发实况图片了

视觉中国战投企业景致三维：启动深圳首家3D数字技术订单班

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

三维天地AI智能体应用落地场景：一键生成的“编译工厂”

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI编程终于“开箱即用”了？Qwen3-Coder或许是那个质变节点

用AI绘图开发游戏，一天就可完成一个游戏！

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为旗舰平板MatePad Pro 12.2今日发布

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

站长商机