首页 > 业界 > 关键词  > AI模型最新资讯  > 正文

Instruct-NeRF2NeRF,这个AI模型可以让用户通过文本编辑3D场景

2023-04-19 14:54 · 稿源:站长之家

站长之家(ChinaZ.com)4月19日 消息:Instruct-NeRF2NeRF 使用生成式 AI 模型的方法,可以根据文本输入编辑3D 场景。

今年早些时候,加州大学伯克利分校的研究人员展示了InstructPix2Pix,这是一种允许用户使用文本指令在 Stable Diffusion 中编辑图像的方法。例如,该方法可以替换图像中的对象或更改样式。

InstructPix2Pix项目网址:https://huggingface.co/spaces/timbrooks/instruct-pix2pix

image.png

注:文中图片均来自Instruct-NeRF2NeRF 项目视频案例截图

现在一些研究人员已经将他们的方法应用于编辑 NeRFs。Instruct-NeRF2NeRF 从经过训练的 NeRF 和用于训练的图像开始,可以根据文本提示一张一张地编辑训练图像,并使用这些编辑后的图像重新训练 NeRF。

注:NeRF(Neural Radiance Field,神经辐射场)模型是一种利用多层感知器(MLPs)进行隐式神经场景体绘制的新型视图合成方法。到目前为止,NeRFs主要用作3D模型和3D场景的一种神经存储介质,然后可以从不同的相机视角进行渲染。

Instruct-NeRF2NeRF 支持简单物体和真实场景

该团队展示了如何使用这种方法给头部戴上牛仔帽、将其变成3D 油画、将其变成蝙蝠侠或将其变成爱因斯坦等。

image.png

image.png

image.png

其它的例子还有改变自然拍摄的季节、时间或天气;改变一个人的衣服。

image.png

image.png

该团队称,该方法“能够编辑大规模、真实世界的场景,并且能够比之前的工作完成更逼真、更有针对性的编辑。”

Instruct-NeRF2NeRF 根据迭代编辑的图像更新 NeRF。此任务由 InstructPix2Pix 执行,它以文本输入为条件。

Instruct-NeRF2NeRF 需要10到15GB 的显存

该团队正在发布三个不同版本的 Instruct-NeRF2NeRF,它们需要15到10GB 的 RAM 视频内存。最大的版本提供最佳的结果。

这种新方法将AI技术应用于3D场景处理,可以实现更准确的编辑操作,并为研究提供了新的可能性。这种模型有利于加速图形处理领域的创新,为人类创造更好的视觉体验提供了新的思路。

Instruct-NeRF2NeRF 项目页面上提供了更多示例、代码和模型。

Instruct-NeRF2NeRF项目网址:https://the-decoder.com/instruct-nerf2nerf-lets-you-edit-nerfs-via-text-prompt/

举报

  • 相关推荐
  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • 从心脏、到血管……3D打印开启“器官替换”时代

    为了确保3D打印的人工器官能正常运行,必须让血管充分发挥功能。若无法稳定供血,人工器官的广泛使用根本无从谈起……

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • 宜人智科“智语大模型”备案完成,旗下宜享花开启AI+多元场景

    宜人智科自主研发的"智语大模型"成功通过国家备案,标志着公司在AI领域取得重要突破。该大模型具备文本生成、智能解析、合同审核及多语言翻译等核心功能,已应用于金融科技、智能客服等业务场景。公司将通过该技术升级核心产品"宜享花"的智能化服务,优化风控评估和智能决策支持,提升数字化服务体验。未来还将深化智能风控、自动化审批等金融场景应用,打造行业标杆级智能服务平台。公司将持续加大AI研发投入,推动"AI+金融"深度融合,加速向AI企业转型。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。