ContorlNet作者的研究！LayerDiffusion可生成商业素材级别透明PNG图片

2024-02-28 15:06 · 稿源：站长之家

划重点:
⭐️ 一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。
⭐️ LayerDiffusion使得大型已经过预训练的潜在扩散模型能够创造透明图像。
⭐️ 这项技术不仅可以生成单独的透明图像，还能生成多层透明图层，拥有多种应用场景。

站长之家（ChinaZ.com）2月28日消息:用于生成图像的大规模模型已经成为计算机视觉的基础而图形，令人惊讶的是，很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。

ContorlNet的作者研究了一款名为LayerDiffusion项目，使得大型已经过预训练的潜在扩散模型（latent diffusion model）能够创造透明图像。LayerDiffusion可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。

它通过一种被称为“潜在透明度”的方法，将透明度（即 alpha 通道）整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是，它通过以潜在偏移的形式加入透明度，几乎不改变模型原有的潜在分布，从而保持了模型的高质量输出能力。基于这种方法，任何一个潜在扩散模型都可以通过对潜在空间的微调，转化为透明图像生成器。

研究人员在训练模型时采用了涉及人机互动的方法，收集了大量透明图像层数据。研究结果显示，潜在透明技术不仅可以应用于各种开源图像生成器，还可以适配多种条件控制系统，实现不同应用场景下的层生成和结构控制。

研究显示，这种潜在透明技术不仅可以应用于不同的开源图像生成器，还可以适配多种条件控制系统，实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。

一项用户研究发现，大多数情况下（97%），相比于之前的临时解决方案(如先生成图像再进行抠图处理)，用户更喜欢我们直接生成的透明内容。用户还表示，生成的透明图像在质量上可媲美真实的商业级透明素材，例如 Adobe Stock 提供的素材，展现出技术的强大和实用性。

论文入口：https://arxiv.org/pdf/2402.17113.pdf

（举报）

相关推荐

关键词：

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司（展位7A-T022）集中展示了AI产业实践与数据流通领域成果，重点推出10万元级智能工作站GAI+Station，集成写作、会议纪要、智能问答等功能，内置8大模型能力，破解成本与安全痛点。其“发数站”战略打通数据高效流通链路，已在医疗、交通等多领域落地，“数智绿波”应用覆盖全国30多个省市，通行效率提升20%以上。此外，AITA超级营销助手实现升级，机器狗互动表演吸引关注。展会期间将举办10余场专业发布，涵盖数据要素、大模型应用等行业实战，助力企业把握数字化机遇。

2025全球数字贸易博览会每日互动 AI产业实践
真我GT8 Pro镜头模组支持DIY！可拆、可拼、可换

真我GT8+Pro手机公布镜头模组创新设计，采用可拆卸、可拼装、可更换的Deco模块，提供圆形、方形及机器人造型供用户DIY。搭载2亿像素潜望长焦“Ultra之眼”，配备对称双扬声器、X轴线性马达及3D超声波屏下指纹。全系配备2K+144Hz京东方Q10+发光材料屏幕，峰值亮度达4000nit。首批搭载骁龙8至尊版处理器，并配备电竞独显芯片R1，实现“王炸双芯”配置。

真我GT8 Pro 镜头模组设计
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
开启移动智能新时代回顾Galaxy AI的创新之旅

三星通过Galaxy AI开启智能手机AI驱动新时代。2024年Galaxy S24系列问世，标志AI手机进入创新新阶段。AI深度赋能沟通、创意与互联，重塑生活方式。三星持续推动多模态AI发展，将其融入可穿戴设备、平板、PC等产品，扩展移动AI生态系统。自去年Galaxy AI落地应用后，重新定义更自由、智能的生活方式，推动新时代持续演进。

AI智能手机 Galaxy AI
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
下一代旗舰！Nordic54L绝鲨MAX方案ATK A9大师版重磅登场

ATK A9大师版鼠标在经典模具基础上深度优化，搭载自研Nordic54L绝鲨MAX方案，实现极致操控与超长续航。58项模具优化提升手感，按键延迟低至0.263ms，配备PAW3950传感器，满足职业电竞需求。内置800mAh电池配合低功耗方案，续航达600小时，大幅减轻充电焦虑。该产品延续A9系列热销基因，首发起售价199元，9月25日20:00正式开售，是面向玩家的全新力作。

ATK A9大师版 Nordic54L绝鲨MAX
荐AI为他们圆了导演梦

“我们这么小团队做的‘小东西’真的可以吗?” 当得知自己作品《小怪物》入围釜山电影节时，黎晓薇的第一反应是“难以置信”，因为就在几个月前她才开始正式接触AI工具。和黎晓薇一样幸运的，还有徐文君、小文和MANYMANY团队，这些来自中国的AI创作者们分别带来了《一目五先生》《权利童话》和《九宵》三部作品。 “未来影像计划”由即梦AI联合火山引擎、上海电�

AI生成影像釜山电影节未来影像计划
荐“老登”应用，霸榜AI

AI应用的争夺战，打到哪儿了? 如果把整个AI行业想象成一座金矿:基础设施层（芯片、算力）相当于“卖铲子”，提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”，告诉大家哪里有金子;而应用层是直接“下场淘金”，把金子变现。近两年AI应用的使用者越来越多，QuestMobile数据显示，截止到2025年8月，移动端AI应用用户规模达6.45亿，PC端达2.04亿。其中原生APP亿级应用的

AI应用 AI原生应用 AI行业

今日大家都在搜的词：

热文

3 天
7天

ContorlNet作者的研究！LayerDiffusion可生成商业素材级别透明PNG图片

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

真我GT8 Pro镜头模组支持DIY！可拆、可拼、可换

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

开启移动智能新时代回顾Galaxy AI的创新之旅

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

下一代旗舰！Nordic54L绝鲨MAX方案ATK A9大师版重磅登场

荐AI为他们圆了导演梦

荐“老登”应用，霸榜AI

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

iQOO 15搭载自研电竞芯片Q3 能效提升40%

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

荣耀Magic8系列暨MagicOS10发布会定档10月15日

OPPO Find X9/Pro全配色外观公布将于10月16日发布

荣耀MagicPad3 Pro官宣10月15日发布搭载第五代骁龙8至尊

小米回应“小米汽车突然自己开走”：排除车辆质量问题

比特币价格突破12.5万美元刷新历史最高纪录

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

雷军：小米17系列首销权益延续至10月31日

三星W26折叠屏手机官宣10月11日发布

站长商机