首页 > AI头条  > 正文

Stability AI发布0.7秒单图像实时重建模型 SPAR3D,颠覆3D重建

2025-07-21 08:57 · 来源: AIbase基地

在计算机视觉领域,单图像3D 重建技术以其从二维图像中恢复三维物体形状和结构的能力,成为了一个备受关注的研究方向。近日,著名开源大模型平台 Stability-AI 推出了一款名为 SPAR3D 的创新模型,使得这一技术的实现速度达到了前所未有的0.7秒,为行业带来了巨大的变革。

image.png

单图像3D 重建面临着众多挑战,主要技术路线分为基于回归的方法和生成式建模的方法。基于回归的方法在推断可见表面时效率较高,但在处理遮挡区域时常常出现表面和纹理估计不准确的问题。而生成式方法则能够更好地处理不确定性区域,但其计算成本高且生成结果与可见表面对齐较差。

SPAR3D 通过结合这两种技术的优点,有效规避了各自的局限性,显著提升了重建的速度和准确性。

SPAR3D 的架构:高效的点采样与网格化

SPAR3D 的架构由两个主要阶段组成:点采样阶段和网格化阶段。

  1. 点采样阶段 :该阶段的核心是点扩散模型,能够根据输入的二维图像生成稀疏的点云,包含 XYZ 坐标和 RGB 颜色信息。采用 DDPM(Denoising Diffusion Probabilistic Models)框架,该模型通过添加高斯噪声和去噪器的反向过程,学习如何从含噪点云中恢复出噪声。在推理过程中,使用 DDIM(Denoising Diffusion Implicit Models)采样器生成点云样本,并通过分类器自由引导(CFG)提升采样的保真度。

  2. 网格化阶段 :该阶段的目标是从输入的图像和点云中生成带有纹理的三维网格。SPAR3D 采用了大型三平面 Transformer,能够从图像和点云中预测出三平面特征,进而估计物体的几何形状、纹理和照明。训练过程中,通过可微渲染器使用渲染损失来监督模型,确保生成结果的真实感和质量。

显著性能:超越传统方法

在 GSO 和 OmniObject3D 数据集的测试中,SPAR3D 在多个评估指标上均显著优于传统的回归和生成式基线方法。例如,在 GSO 数据集中,SPAR3D 的 CD(Chamfer Distance)值为0.120,FS@0.1为0.584,PSNR(Peak Signal-to-Noise Ratio)为18.6,而其他方法的表现则相对较弱。在 OmniObject3D 数据集中,SPAR3D 同样展现出优异的性能,CD 值为0.122,FS@0.1为0.587,PSNR 为17.9。

这些结果充分证明了 SPAR3D 在几何形状和纹理质量方面的卓越表现,展现了其在实际应用中的潜力。

结语:开源技术的未来

随着技术的不断进步和应用场景的扩展,SPAR3D 无疑将在计算机视觉和3D 重建领域扮演重要角色。对于开发者和研究者而言,SPAR3D 的开源特性意味着更多的创新与应用机会。

开源地址:https://github.com/Stability-AI/stable-point-aware-3d

Huggingface:https://huggingface.co/stabilityai/stable-point-aware-3d

  • 相关推荐
  • A日报:Stability AI发布实时重建模型SPAR3D;火山引擎“奇美拉”数字人平台启动封测;京东重磅开源JoyAgent-JDGenie

    AI日报栏目精选了人工智能领域最新动态:1)Stability AI推出0.7秒单图3D重建模型SPAR3D;2)GitHub热门开源AI协作框架CrewAI获3.4万星;3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议;4)ComfyUI-C opilot工具简化AI工作流创建;5)CNNIC报告显示我国346款生成式AI完成备案;6)提示词管理工具AI Gist上线;7)开源语言学习工具WordPecker支持多语言学习;8)斯坦福推出多工具协作AI Agent OctoTools;9)Ope

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 某幻君助力索尼原创音浪季,BilibiliWorld 现场解锁音频黑科技

    索尼在BilibiliWorld展会上打造沉浸式音乐体验,以"为音乐而生"理念呈现专业音频设备组合。现场设置录音棚体验区,观众可使用C-80麦克风和MDR-M1监听耳机感受专业录音效果。同时展出旗舰降噪耳机WH-1000XM6等产品,展现索尼70年音频技术积淀。活动还推出"索尼原创音浪季"赛事,邀请B站UP主某幻君等音乐人现场表演,通过前沿科技支持音乐创作。索尼中国高管现场

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 349元 OPPO K13 Turbo散热超级套装发布:液冷+风冷给手机“冻”感冒

    OPPO发布K13 Turbo系列手机及配套疾风散热超级套装,套装售价299元起。该散热套装采用微泵循环液冷+27W冰翼风冷磁吸散热方案,通过全面散热片、微泵驱动液冷及磁吸连接的风冷散热器实现均衡降温,官方称背夹单体最高降温33℃。相比传统散热方式,该套装能精准覆盖主板等发热区域,厚度仅23.5mm,重量82g,并设计有循环液流观察窗。

  • OPPO K13 Turbo发布:国补后售价1529.15元起

    核心配置方面,该机配备6.8英寸LTPS直屏,搭载联发科天玑8450处理器,形成7000mAh巨型电池与80W闪充的续航组合。影像系统采用前置1600万像素镜头与后置5000万+200万双摄组合,满足多场景拍摄需求。 防护性能实现行业首创:OPPO K13Turbo成为首款通过IPX9高压高温水柱、IPX8长时间浸泡、IPX6多方向喷水三项顶级防水认证的风冷手机,重新划定手机防护标准。工业设计上,新一代高强度�

  • 苹果发布iOS 18.6开发者预览版Beta 3:国行AI遥遥无期

    今日,苹果向iPhone用户推送了iOS 18.6开发者预览版Beta 3。 开发者可在兼容设备上通过设置”应用,进入通用软件更新”下载该测试版。 目前尚未发现有可见更新内容,不过此前有消息称,iOS 18.6将会针对欧盟地区用户进行实用性更新。 苹果当前在欧盟地区的iOS版本虽然支持上述两种行为,但会插入一些警告屏幕,这引起了欧盟监管机构的关注,将会进行一些调整。 值得注意�

  • 轻薄多彩 强悍耐用 | TECNO正式发布SPARK 40 系列

    传音旗下TECNO发布全新SPARK40系列手机,包含四款机型,主打轻薄机身与旗舰级配置。全系配备6.78英寸144Hz AMOLED屏、5200mAh大电池及45W快充,Pro+机型厚度仅6.49mm,支持30W无线充电。搭载联发科Helio G200处理器,安兔兔跑分近47万,配备5000万主摄和EIS防抖。AI方面整合ChatGPT等平台,支持离线通信功能。通过IP64防水防尘认证,采用抗摔玻璃,重新定义中端机性能标杆。

今日大家都在搜的词: