首页 > 业界 > 关键词  > ObjectDrop最新资讯  > 正文

谷歌发布图像局部重绘项目ObjectDrop 插入物体和环境完美融合

2024-03-29 09:26 · 稿源:站长之家

站长之家(ChinaZ.com)3月29日 消息:谷歌今天发布了一个名为ObjectDrop的图像局部重绘项目,其效果令人印象深刻。这个项目成功模拟了物体对场景的影响,包括遮挡、反射和阴影,实现了逼真的物体移除和插入。

QQ截图20240329092330.png

论文地址:https://arxiv.org/pdf/2403.18818.pdf

在该项目的论文中,他们介绍了一种方法,该方法包括在移除场景中的某个物体之前和之后拍摄场景,同时尽可能减少其他因素的变化。通过在这个特别的数据集上微调扩散模型,他们不仅能够消除图像中的物体,还能去除它们对周围环境的影响。

然而,他们发现,要把这个方法用于创造逼真的物体插入,需要一个非常大的数据集,这在实际应用中是不现实的。为了解决这个问题,他们引入了一种新的方法,称为引导监督(bootstrap supervision)。

这种方法通过利用他们在一个小反事实数据集上训练的物体移除模型,能够在合成层面大量扩展这个数据集。这意味着,他们可以在不需要大量实际数据的情况下,创造出逼真的物体插入效果。

在创造逼真的物体移除和插入方面,他们的方法明显优于之前的技术,尤其是在模拟物体对其环境的影响这一点上做得非常出色。这一成果对于图像处理和计算机视觉领域来说,是一个重要的突破。

举报

  • 相关推荐
  • 用AI图像融合工具创造无缝图像融合,带来震撼视觉体验!

    AI图像融合工具正式上线,为您带来最先进的AI图像融合技术。借助这款工具,用户可以轻松地将多张图片融合成一张创意十足的视觉作品,展现无与伦比的艺术效果。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 《卓世科技MCP 技术融合实践白皮书》发布

    本文介绍了AI应用开发中MCP(模型上下文协议)的重要作用。MCP作为标准化AI工具交互协议,允许AI代理根据任务上下文自主发现、选择和编排工具,突破传统预定义工具映射的局限。文章重点展示了卓世科技在医疗健康领域的创新实践:通过MCP整合多源异构医疗知识图谱,构建全栈式健康监测网络,实现诊疗规范、药品信息等动态同步;同时开发智能周报系统,实现多模态内容自动生成与精准推送。MCP架构采用客户端-服务器模式,支持本地高效通信与云端实时交互,为AI应用提供灵活性和互操作性。未来,MCP将与A2A协议互补协作,推动AI从单点工具向系统化智能协同演进。

  • 解码HTC VR大空间版:重塑中国文旅与科技创新融合新范式

    近年来VR大空间沉浸式体验成为文旅产业新方向,HTC通过《消失的法老》等项目推动行业转型。该体验结合800平米自由移动空间、毫米级数字还原等技术,11个月吸引11万人次参与,票房破3000万。HTC布局硬件、软件和内容生态,与全球50多家顶尖博物馆合作开发文化IP内容。2025年全球VR大空间市场规模预计突破120亿美元。国内VR大空间面临内容同质化挑战,需深耕文化IP开发,如HTC与陕文投合作的《尘封的帝国》秦陵项目。国家电影局将VR大空间纳入"虚拟现实电影"新片种,为行业带来新机遇。

  • AI实力排名洗牌:OpenAI、谷歌崛起,Anthropic下滑

    人工智能的格局正以前所未有的速度演变,但超越标准化基准或排行榜平台,了解需求和使用模式 仍然是一个挑战……

  • 华为鸿蒙PC搭载方舟图像引擎:像素级遮挡剔除 多窗无压力

    快科技5月8日消息,华为首款鸿蒙PC今日正式发布,其搭载方舟图形引擎,带来炫酷的视效体验。据介绍,方舟图形引擎基于方天视窗,高并行低负载统一渲染引擎,基于人因,交互优先,多窗重载依然流畅。传统方案中,窗口无序绘制,负载随窗口数量线性增加重载卡顿。而方舟图形引擎基于人因的窗口排序绘制,焦点窗口保证高帧率高负载稳定流畅。此外,方舟图形引擎支�

  • iPhone 17 Air设计致敬谷歌Pixel!谷歌发广告暗讽

    面对iPhone17Air的设计,谷歌官方发布了一段视频暗讽苹果,这段视频采用对话的形式,对话的双方分别是谷歌Pixel和iPhone,对话内容如下:

  • 未来智能发布AI耳机新品iFLYBUDS Pro 3与Air 2,解码AI硬件的三价值跃迁

    文章探讨了AI硬件行业当前面临的两极分化现象:一方面企业陷入参数竞赛的技术神话,另一方面因场景缺失导致功能冗余。未来智能通过发布iFLYBUDS Pro3和Air2两款AI会议耳机,展现了回归工具本质的理念——好AI耳机首先必须是好耳机。产品聚焦办公会议场景,通过viaim大脑与百万终端构建的生态闭环,实现数据与入口双向促进。数据显示用户留存率达70%,证明解决真实问题比追逐风口更具生命力。文章指出,真正的用户价值在于让技术隐形,当耳机能预测跨语言翻译需求、自动整理碎片信息时,工具便进化为"懂需求的伙伴"。

  • XReal牵手谷歌,推出新一代AR眼镜 Project Aura

    虽然 Xreal 设备的外形类似太阳镜,但它们在佩戴时距离眼睛较远,因此与 Meta 和苹果正在开发的 AR 眼镜属于截然不同的设备类别……

  • AI日报:腾讯混元图像2.0毫秒级生;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶全球TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。