首页 > AI头条  > 正文

只需 10 秒!WonderWorld AI 实现单张图片实时生成 3D 场景

2024-10-09 11:47 · 来源: AIbase基地

最近,斯坦福大学和麻省理工学院的研究人员共同开发了一种名为 WonderWorld 的 AI 系统,它能够从单张图片实时生成3D 场景。这项新技术使用户可以逐步构建和探索虚拟环境,轻松控制生成场景的内容和布局。

WonderWorld 的最大挑战在于实现快速的3D 场景生成。以往的方法通常需要几分钟到几小时的时间来生成一个场景,而 WonderWorld 则能在仅仅10秒内在 Nvidia A6000GPU 上生成一个新的3D 环境。这种速度使得实时交互成为可能,标志着该领域的重大进步。

WonderWorld 的工作原理是,从输入的图片开始,生成一个初步的3D 场景。接着,系统进入一个循环,交替生成场景图像和相应的 FLAGS 表示。用户可以通过移动相机来控制新场景的生成,并使用文本输入指定想要的场景类型。

image.png

值得一提的是,FLAGS 表示由三个层次组成:前景、背景和天空。每一层包含一组被称为 “surfels” 的元素,它们根据3D 位置、方向、比例、透明度和颜色来定义。这些 surfels 通过估计深度和法线图进行初始化,然后经过优化以创建最终的场景。

为了减少场景转换时的几何失真,WonderWorld 采用了一种引导深度扩散过程。这种方法使用预训练的深度图扩散模型,调整深度估计以匹配场景现有部分的几何形状。

实验表明,WonderWorld 在速度和视觉质量方面明显优于以前的3D 场景生成方法。在用户研究中,生成的场景被认为比其他方法生成的场景更具视觉说服力。

虽然 WonderWorld 在速度和视觉质量上显著优于以往的方法,但它仍然有一些局限性。比如,它只能创建前向表面,限制了用户在虚拟世界中的移动角度在大约45度以内。此外,生成的世界目前看起来像是纸片剪影,而在处理像树这样的细节物体时,可能会出现 “洞” 或 “漂浮” 元素的现象。

尽管存在这些限制,研究人员仍然对 WonderWorld 的潜力充满信心,尤其是在游戏开发、虚拟现实和动态虚拟世界的创建方面。用户在研究中评价生成的场景视觉效果更具说服力,显示了这项技术的广泛应用前景。

项目入口:https://kovenyu.com/wonderworld/

划重点:

🌟 WonderWorld AI 能够仅用一张照片实时生成3D 场景,速度快至10秒。

🎮 该系统支持用户控制场景内容和布局,适合游戏开发和虚拟现实应用。

🚧 当前技术存在一定局限,主要表现为只能生成前向表面和细节处理不足。

  • 相关推荐
  • ZEGO AI Agent:支持一张图生成数字人

    即构科技推出AI Agent2.4,用户只需上传一张正面照即可生成1080P高清数字人,支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应,唇形同步准确,支持文本/音频/语音流驱动。适用于教育、客服等场景,提供API灵活定制,实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎,在生成效率、拟真度方面显著提升,带来低门槛、高沉浸的数字人互动体验。

  • 微信iOS又有新功能 聊天终于能发实况图片了

    日前,微信iOS版又迎来新功能与好友聊天支持发送实况照片,目前为灰度测试阶段。 据了解,使用该功能需要将微信iOS更新至8.0.61版本及以上,默认实况为关闭状态,发送照片时点击进入大图预览页面可手动开启单个照片的实况开关。

  • 视觉中国战投企业景致三维:启动深圳首家3D数字技术订单班

    视觉中国战略投资企业景致三维联合深圳携创高级技工学校,于2025年7月22日启动深圳首家"3D梦工场订单班"。该项目针对3D数字技术人才缺口,定向培养逆向工程师、动画师、渲染师等紧缺人才。课程引入亚马逊、京东等真实商业项目案例,学生将系统学习3ds Max、Maya等主流工具,并考取职业资格证书。学习期间企业提供奖学金和带薪实习,毕业生考核合格可直接入职景�

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • 三维天地AI智能体应用落地场景:一键生成的“编译工厂”

    文章分析了当前软件开发行业面临的三大痛点:1)软件需求激增与开发人才短缺的矛盾;2)传统开发流程中需求分析、编码等环节效率低下;3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案,该方案通过自然语言处理技术,将结构化需求文档自动转换为可执行代码,显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在:开发周期从天级缩短至分钟级;降低60%人力成本;代码风格统一规范;减少人为错误;沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • A日报:Stability AI发布实时重建模型SPAR3D;火山引擎“奇美拉”数字人平台启动封测;京东重磅开源JoyAgent-JDGenie

    AI日报栏目精选了人工智能领域最新动态:1)Stability AI推出0.7秒单图3D重建模型SPAR3D;2)GitHub热门开源AI协作框架CrewAI获3.4万星;3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议;4)ComfyUI-C opilot工具简化AI工作流创建;5)CNNIC报告显示我国346款生成式AI完成备案;6)提示词管理工具AI Gist上线;7)开源语言学习工具WordPecker支持多语言学习;8)斯坦福推出多工具协作AI Agent OctoTools;9)Ope

  • AI编程终于“开箱即用”了?Qwen3-Coder或许是那个质变节点

    ​7月23日,阿里通义团队正式发布Qwen3-Coder-480B-A35B-Instruct,这可能是AI编程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构,原生支持256K上下文,可扩展至1M token,在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA,性能直接对标Claude Sonnet-4。

  • 用AI绘图开发游戏,一天就可完成一个游戏!

    文章介绍了一款融合《饥荒》诡异画风与密室逃脱玩法的解谜冒险游戏《密室求生》。游戏通过Holopix AI工具制作素材,解决了独立开发者面临的素材获取难题:1)AI可快速生成统一风格的场景、角色和道具图标;2)支持文生图功能,通过详细提示词优化生成效果;3)提供丰富的微调功能,包括五官调整、明暗调节等;4)支持线稿提取、智能扩图等实用功能。该工具能有效降�

今日大家都在搜的词: