仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

2025-05-14 13:48 · 稿源：站长之家

苹果2.png

据9to5Mac报道，苹果机器学习团队与南京大学、香港科技大学的研究人员合作发布了一款非常有意思的 3D AI 模型，名为Matrix3D。据悉，这款大型摄影测量模型能够仅凭几张二维照片重建三维物体和场景，这与当前的流程有很大不同。

图片.png

首先要说的是摄影测量技术。它利用照片进行测量，从而创建 3D 模型或地图。目前，该过程涉及使用不同的模型进行姿态估计和深度预测等步骤，这可能导致效率低下和错误。

但 Matrix3D 通过一次性完成所有操作简化了这一过程。它接收图像、相机参数（例如角度和焦距）和深度数据，并使用统一的架构进行处理。这不仅简化了工作流程，还提高了准确性。

图片.png

更有意思的是该模型的训练方式。研究人员使用了一种掩蔽学习策略，与早期基于 Transformer 的 AI 系统非常相似，这些系统为 ChatGPT 的初始版本铺平了道路。

他们在训练过程中随机隐藏了部分输入数据，这迫使 Matrix3D 不得不学习如何填补这些空白。这项技术至关重要，因为它使 Matrix3D 即使在较小或不完整的数据集上也能有效地进行训练。

结果非常惊人 —— 只需三张输入图像，Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建，这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用。

图片.png

研究人员在GitHub上公开了 Matrix3D 的源代码，并在arXiv上发表了他们的论文。他们还创建了一个网站，用户可以在其中观看更多示例视频，甚至可以与一些物体和环境的点云重建进行交互。

（举报）

相关推荐

关键词：

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

阿里巴巴旗下高德地图正式上线创新AR打卡功能，通过深度整合AI技术与地图服务，为用户带来虚实融合的沉浸式打卡体验，无缝连接现实世界。该功能依托前沿AI空间融合技术，突破传统二维地图限制，首创3D立体打卡。用户打开最新版高德地图App，点击右上角 ”号即可轻松开启AR之旅。支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式，完成打卡后系统将自动生成并
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

LiblibAI推出Lovart中文版"星流Agent"，这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上，针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化，可处理平面设计、视频生成和3D建模等跨模态创作，内置符合中国文化的视觉风格库。该产品的推出标�

Lovart AI设计中文优化
墨刀AI生成原型图，产品设计快人一步

国内原型设计平台墨刀发布"AI生成原型图2.0"功能，30秒即可生成可编辑原型图，大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点，支持文字描述或图片上传自动生成高保真原型图，并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级，更代表产品设计方式的一次革新，显著加快产品迭代速度。未来，AI原型设计有望成为行业标配，助力企业更快响应市场需求，提升产品竞争力。
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
苹果自研AI模型难产：改用第三方大语言模型

苹果可能会跟OpenAI或Anthropic合作，双方正在谈判讨论一项潜在交易，苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。据悉，OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型，苹果也在进行测试，目前苹果发现Anthropic的AI模型最适合Siri，且与Anthropic初步讨论了一些财务条款，消息称Anthropic要求苹果每年支付数十亿美元的费用，且该费用会随时间�

苹果 Siri OpenAI
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
AI 图像神器 Luminar Neo 中国官网上线！正版授权价仅 399 元起

AI图像编辑软件Luminar Neo正式登陆中国市场，由思杰马克丁作为官方授权经销商。该软件整合前沿AI技术，提供六大核心功能：智能换天、人像精修、智能结构优化、无损图层编辑、硬件加速和动态创意模板，显著提升专业摄影师和设计师的工作效率。中国用户现可通过官网以399元优惠价购买正版授权，比国际官网价格直降384元。软件提供完整本地化支持，包括中文指南和视频教程，并承诺持续更新和技术支持服务。Luminar Neo特别适合需要高效处理视觉内容的专业人士，将复杂编辑流程简化为几分钟操作，释放创意潜能。
可灵AI推出可图2.1模型多维能力跃升、会员限时7天免费

可灵AI于7月10日上线可图2.1模型，图片生成能力全面升级：1）指令遵循能力显著提升，可精准捕捉复杂提示细节；2）新增180多种风格响应，支持特殊材质、数字艺术等创作需求；3）人像美感大幅优化，肌肤纹理与光影效果更自然；4）增强电影质感生成，能呈现大片级层次氛围；5）文字生成效果提升，支持中英文营销海报等设计。即日起面向会员免费开放7天，实测显示该模型在复杂场景还原和细节表现上达到新高度，累计已生成超3亿张图片。

热文

3 天
7天

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

墨刀AI生成原型图，产品设计快人一步

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

苹果自研AI模型难产：改用第三方大语言模型

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

AI 图像神器 Luminar Neo 中国官网上线！正版授权价仅 399 元起

可灵AI推出可图2.1模型多维能力跃升、会员限时7天免费

热文

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

比特币首触112000美元：盘中涨幅最高达3%

微信：持续打击非法使用外挂行为进一步强化外挂营销信息治理

荣耀X70支持IP66/IP68/IP69/IP69K 号称行业最高规格防水

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

小米汽车交付超30万辆：用时仅15个月

REDMI Turbo 4 Pro粉金新配色发布售价1899元起

小米回应小折叠未搭载玄戒O1：立项之初总量比较有限

站长商机