Stability AI发布0.7秒单图像实时重建模型 SPAR3D，颠覆3D重建

2025-07-21 08:57 · 来源： AIbase基地

在计算机视觉领域，单图像3D 重建技术以其从二维图像中恢复三维物体形状和结构的能力，成为了一个备受关注的研究方向。近日，著名开源大模型平台 Stability-AI 推出了一款名为 SPAR3D 的创新模型，使得这一技术的实现速度达到了前所未有的0.7秒，为行业带来了巨大的变革。

单图像3D 重建面临着众多挑战，主要技术路线分为基于回归的方法和生成式建模的方法。基于回归的方法在推断可见表面时效率较高，但在处理遮挡区域时常常出现表面和纹理估计不准确的问题。而生成式方法则能够更好地处理不确定性区域，但其计算成本高且生成结果与可见表面对齐较差。

SPAR3D 通过结合这两种技术的优点，有效规避了各自的局限性，显著提升了重建的速度和准确性。

SPAR3D 的架构:高效的点采样与网格化

SPAR3D 的架构由两个主要阶段组成:点采样阶段和网格化阶段。

点采样阶段 :该阶段的核心是点扩散模型，能够根据输入的二维图像生成稀疏的点云，包含 XYZ 坐标和 RGB 颜色信息。采用 DDPM（Denoising Diffusion Probabilistic Models）框架，该模型通过添加高斯噪声和去噪器的反向过程，学习如何从含噪点云中恢复出噪声。在推理过程中，使用 DDIM(Denoising Diffusion Implicit Models)采样器生成点云样本，并通过分类器自由引导(CFG)提升采样的保真度。
网格化阶段 :该阶段的目标是从输入的图像和点云中生成带有纹理的三维网格。SPAR3D 采用了大型三平面 Transformer，能够从图像和点云中预测出三平面特征，进而估计物体的几何形状、纹理和照明。训练过程中，通过可微渲染器使用渲染损失来监督模型，确保生成结果的真实感和质量。

显著性能:超越传统方法

在 GSO 和 OmniObject3D 数据集的测试中，SPAR3D 在多个评估指标上均显著优于传统的回归和生成式基线方法。例如，在 GSO 数据集中，SPAR3D 的 CD（Chamfer Distance）值为0.120，FS@0.1为0.584，PSNR(Peak Signal-to-Noise Ratio)为18.6，而其他方法的表现则相对较弱。在 OmniObject3D 数据集中，SPAR3D 同样展现出优异的性能，CD 值为0.122，FS@0.1为0.587，PSNR 为17.9。

这些结果充分证明了 SPAR3D 在几何形状和纹理质量方面的卓越表现，展现了其在实际应用中的潜力。

结语:开源技术的未来

随着技术的不断进步和应用场景的扩展，SPAR3D 无疑将在计算机视觉和3D 重建领域扮演重要角色。对于开发者和研究者而言，SPAR3D 的开源特性意味着更多的创新与应用机会。

开源地址:https://github.com/Stability-AI/stable-point-aware-3d

Huggingface:https://huggingface.co/stabilityai/stable-point-aware-3d

相关推荐

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

阿里巴巴旗下高德地图正式上线创新AR打卡功能，通过深度整合AI技术与地图服务，为用户带来虚实融合的沉浸式打卡体验，无缝连接现实世界。该功能依托前沿AI空间融合技术，突破传统二维地图限制，首创3D立体打卡。用户打开最新版高德地图App，点击右上角 ”号即可轻松开启AR之旅。支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式，完成打卡后系统将自动生成并
LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

LiblibAI推出Lovart中文版"星流Agent"，这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上，针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化，可处理平面设计、视频生成和3D建模等跨模态创作，内置符合中国文化的视觉风格库。该产品的推出标�

Lovart AI设计中文优化
某幻君助力索尼原创音浪季，BilibiliWorld 现场解锁音频黑科技

索尼在BilibiliWorld展会上打造沉浸式音乐体验，以"为音乐而生"理念呈现专业音频设备组合。现场设置录音棚体验区，观众可使用C-80麦克风和MDR-M1监听耳机感受专业录音效果。同时展出旗舰降噪耳机WH-1000XM6等产品，展现索尼70年音频技术积淀。活动还推出"索尼原创音浪季"赛事，邀请B站UP主某幻君等音乐人现场表演，通过前沿科技支持音乐创作。索尼中国高管现场

索尼音频沉浸式音乐 BilibiliWorld
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
349元 OPPO K13 Turbo散热超级套装发布：液冷+风冷给手机“冻”感冒

OPPO发布K13 Turbo系列手机及配套疾风散热超级套装，套装售价299元起。该散热套装采用微泵循环液冷+27W冰翼风冷磁吸散热方案，通过全面散热片、微泵驱动液冷及磁吸连接的风冷散热器实现均衡降温，官方称背夹单体最高降温33℃。相比传统散热方式，该套装能精准覆盖主板等发热区域，厚度仅23.5mm，重量82g，并设计有循环液流观察窗。
OPPO K13 Turbo发布：国补后售价1529.15元起

核心配置方面，该机配备6.8英寸LTPS直屏，搭载联发科天玑8450处理器，形成7000mAh巨型电池与80W闪充的续航组合。影像系统采用前置1600万像素镜头与后置5000万+200万双摄组合，满足多场景拍摄需求。防护性能实现行业首创:OPPO K13Turbo成为首款通过IPX9高压高温水柱、IPX8长时间浸泡、IPX6多方向喷水三项顶级防水认证的风冷手机，重新划定手机防护标准。工业设计上，新一代高强度�
苹果发布iOS 18.6开发者预览版Beta 3：国行AI遥遥无期

今日，苹果向iPhone用户推送了iOS 18.6开发者预览版Beta 3。开发者可在兼容设备上通过设置”应用，进入通用软件更新”下载该测试版。目前尚未发现有可见更新内容,不过此前有消息称，iOS 18.6将会针对欧盟地区用户进行实用性更新。苹果当前在欧盟地区的iOS版本虽然支持上述两种行为，但会插入一些警告屏幕，这引起了欧盟监管机构的关注，将会进行一些调整。值得注意�
轻薄多彩强悍耐用 | TECNO正式发布SPARK 40 系列

传音旗下TECNO发布全新SPARK40系列手机，包含四款机型，主打轻薄机身与旗舰级配置。全系配备6.78英寸144Hz AMOLED屏、5200mAh大电池及45W快充，Pro+机型厚度仅6.49mm，支持30W无线充电。搭载联发科Helio G200处理器，安兔兔跑分近47万，配备5000万主摄和EIS防抖。AI方面整合ChatGPT等平台，支持离线通信功能。通过IP64防水防尘认证，采用抗摔玻璃，重新定义中端机性能标杆。

TECNO SPARK40系列智能手机

今日大家都在搜的词：

热文

3 天
7天

Stability AI发布0.7秒单图像实时重建模型 SPAR3D，颠覆3D重建

SPAR3D 的架构:高效的点采样与网格化

显著性能:超越传统方法

结语:开源技术的未来

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

某幻君助力索尼原创音浪季，BilibiliWorld 现场解锁音频黑科技

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

349元 OPPO K13 Turbo散热超级套装发布：液冷+风冷给手机“冻”感冒

OPPO K13 Turbo发布：国补后售价1529.15元起

苹果发布iOS 18.6开发者预览版Beta 3：国行AI遥遥无期

轻薄多彩强悍耐用 | TECNO正式发布SPARK 40 系列

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

华为Pura 80标准版7月23日开启预售

苹果iOS 26公测版本周发布：预计7月23日亮相

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

特斯拉Model3全球销量达300万辆夏日福利大放送

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

理想i8开启预定：7月29日上市预售价35-40万元

小米骨传导耳机2发布：699元 7月21日开售

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

站长商机