首页 > 业界 > 关键词  > LayerDiffusion最新资讯  > 正文

ContorlNet作者的研究!LayerDiffusion可生成商业素材级别透明PNG图片

2024-02-28 15:06 · 稿源:站长之家

划重点:

⭐️ 一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

⭐️ LayerDiffusion使得大型已经过预训练的潜在扩散模型能够创造透明图像。

⭐️ 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层,拥有多种应用场景。

站长之家(ChinaZ.com)2月28日 消息:用于生成图像的大规模模型已经成为计算机视觉的基础而图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。

ContorlNet的作者研究了一款名为LayerDiffusion项目,使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。LayerDiffusion可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

image.png

它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。

研究人员在训练模型时采用了涉及人机互动的方法,收集了大量透明图像层数据。研究结果显示,潜在透明技术不仅可以应用于各种开源图像生成器,还可以适配多种条件控制系统,实现不同应用场景下的层生成和结构控制。

研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。

image.png

一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材,展现出技术的强大和实用性。

论文入口:https://arxiv.org/pdf/2402.17113.pdf

举报

  • 相关推荐
  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 从TradingView到AiCoin,WEEX用户尽享专业分析与高效交易

    5月28日,加密货币交易平台WEEX与行情分析平台AiCoin达成战略合作,实现行情数据与K线图的全面对接。此前WEEX已完成与TradingView的集成,为用户提供专业图表分析工具。WEEX成立于2018年,现支持15种语言,服务全球130多个国家超620万用户,合约交易量排名全球前十。平台设立1000BTC投资者保护基金,定期公布储备金证明(PoR)。此次合作将借助AiCoin的专业数据和分析工具,提升用户�

  • 月访问量超千万的AI图片产品,如何炼成

    作为与 AI 最容易产生化学反应的图片行业,在 AIGC 来临后最早起势,但同样面临竞争激烈、产品同质化等挑战,而在如今图片编辑细分方向几乎处于横盘的状态下,这类产品前路如何、团队如何维系用户基础、又怎样探索新的增长机会?在上个月的 GTC 全球流量大会上,我

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

    他对OpenAI最新GPT-4o模型进行的一系列实验。这些实验旨在测试AI是否会偏向“自我保护”,甚至可能以牺牲用户利益为代价……

  • 即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。

    MD,这次连设计师的参考图也一键干碎了。。。 我测了整整一夜,现在是凌晨4点21,我还在写这篇文章。 我人真的傻了,我真的不愿意用一些什么很夸张的词语,但是即梦的绘图,每一次,带给我的震撼,都会觉得,我这么多年的设计师生涯,在AI的进化速度面前,不值一提。 什么样的言语,都无法比拟直接看图来的直接,直接给你们看效果。 这是一张,很好看的北京的�

  • Staycation风潮来了:在酒店里躺平,比旅游更治愈

    “在酒店吹空调、吃西瓜、躺着追剧,不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期,时间不够远游,却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店,开启“微度假”新姿势——Staycation。 Staycation是“Stay”(停留)和“Vacation”(假期)的结合,指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说,这种

  • 深圳国际电子展暨嵌入式展elexcon即将启幕-聚焦AI与双碳引行业关注

    2025年深圳国际电子展暨嵌入式展(ELEXCON)将于8月26-28日举办,聚焦"All for AI, All for GREEN"主题。展会吸引全球400余家优质供应商参展,预计汇聚3万余名工程师及采购决策者,重点展示嵌入式系统、半导体、能源电子等领域创新成果。康盈半导体将展出体积缩小60%的ePOP嵌入式存储芯片,已应用于AI眼镜等穿戴设备。同期举办的中国嵌入式技术大会将探讨AI芯片、RISC-V开源生态等议题。能源电子专区将展示功率器件、电源管理等能效升级方案,扬杰科技将演示车规级功率器件在新能源汽车领域的应用案例。展会还将举办开发者嘉年华,打造万人技术互动场景,促进产业链上下游资源整合。

  • 苹果macOS 26 Tahoe发布:全新玻璃风格 顶栏全透明设计

    据媒体报道,在备受瞩目的WWDC25开发者大会上,苹果正式揭晓了新一代操作系统:macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言,覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格,顶栏实现全透明化,营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案,个性化体验得�