首页 > 业界 > 关键词  > LayerDiffusion最新资讯  > 正文

ContorlNet作者的研究!LayerDiffusion可生成商业素材级别透明PNG图片

2024-02-28 15:06 · 稿源:站长之家

划重点:

⭐️ 一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

⭐️ LayerDiffusion使得大型已经过预训练的潜在扩散模型能够创造透明图像。

⭐️ 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层,拥有多种应用场景。

站长之家(ChinaZ.com)2月28日 消息:用于生成图像的大规模模型已经成为计算机视觉的基础而图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。

ContorlNet的作者研究了一款名为LayerDiffusion项目,使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。LayerDiffusion可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

image.png

它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。

研究人员在训练模型时采用了涉及人机互动的方法,收集了大量透明图像层数据。研究结果显示,潜在透明技术不仅可以应用于各种开源图像生成器,还可以适配多种条件控制系统,实现不同应用场景下的层生成和结构控制。

研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。

image.png

一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材,展现出技术的强大和实用性。

论文入口:https://arxiv.org/pdf/2402.17113.pdf

举报

  • 相关推荐
  • 从功能到场景 三星Galaxy手机为AI体验注入创新动能

    随着AI成为智能手机体验的核心,用户期待已从单一功能转向其能否真正融入日常流程。三星Galaxy手机正推动AI从“功能展示”走向“场景驱动”,通过系统级融合,让AI成为底层能力,在后台无缝参与信息处理与任务执行。多模态理解能力支撑场景化体验落地,用户无需刻意调用,AI便能在适当时机提供协助。这种设计使AI从附加功能转变为基础设施,让操作更顺畅连贯,为智能体验注入持续创新动能。

  • 从多任务到跨应用协同 三星Galaxy Z Fold7释放AI生产力

    文章指出,随着移动办公与内容创作需求增长,智能手机正从信息接收终端转变为生产力工具。三星Galaxy Z Fold7通过折叠形态提供8英寸大屏,优化多任务处理,结合仅215克的机身重量与4.2毫米展开厚度,兼顾便携性。其搭载的One UI系统针对折叠屏深度优化,提升多窗口操作与跨应用协同效率。Galaxy AI的融入进一步强化智能协作,例如在信息整合、创意编辑与沟通场景提供辅助。该设备通过硬件形态、系统交互与AI能力的协同设计,旨在为追求高效的用户提供完整的移动生产力解决方案。

  • NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级

    2025年是PC端AI发展的突破之年,小语言模型(SLM)准确率相比2024年提升近2倍,显著缩小了与云端大语言模型(LLM)的差距。NVIDIA在CES上宣布了一系列针对RTX设备的AI升级,以解锁PC上的生成式AI性能。通过优化ComfyUI、开源LTX-2视频生成模型、加速Ollama和llama.cpp等工具,实现了视频/图像生成性能最高提升3倍、显存占用最多降低60%,以及SLM推理性能最高提升35%。这些改进让用户能在本地RTX AI PC上无缝运行先进的工作流,同时享受隐私、安全和低延迟优势。全新的视频生成工作流和由Nexa.ai推出的Hyperlink本地智能搜索工具,将进一步推动生成式AI在2026年全面走向大众创作者、游戏玩家和生产力用户。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • 昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA

    北京大学张牧涵团队提出TransMLA转化框架,实现无需重训即可将主流大模型(如LLaMA、Qwen)从GQA架构迁移至MLA架构。该框架通过四大核心技术模块解决迁移痛点:结构映射、RoRoPE位置编码适配、频率折叠融合及KV矩阵均衡化,在昇腾算力支持下,成功在LLaMA-2-7B上裁剪68.75%的KV缓存,仅轻微性能损失。昇腾硬件的高效并行架构与存储优化体系为技术落地提供关键支撑,推动TransMLA集成至高性能推理框架生态,大幅降低企业升级成本,为长上下文推理提供自主算力解决方案。

  • 卡游和Suplay,谁能先跑上市?

    继卡游两次向港交所递交招股书却相继过期失效后,卡牌行业的上市故事未就此停下。 前不久,2019年成立的潮流IP收藏品与消费品公司Suplay向港交所主板递交上市申请,摩根大通、中金公司为联席保荐人,卡牌行业的资本化进程再度被推至聚光灯下。 这方寸纸片,撑起的是一个狂飙的市场。灼识咨询报告数据显示,中国泛娱乐卡牌市场规模在2025年已突破300亿元,预计2027年�

  • 三星Galaxy Z TriFold:形态创新从大屏中开始 在交互中完成

    本文探讨了移动终端体验差异的关键正从硬件规格转向交互方式,并以三星Galaxy Z TriFold为例,阐述了“软硬件协同进化”的重要性。该设备通过10英寸大屏、三折形态、多任务协同机制与Galaxy AI的深度融合,重构了人机互动逻辑。大屏不仅提升了阅读与操作效率,更与系统级多任务、本地DeX模式结合,实现了接近桌面级的并行处理体验。同时,Galaxy AI的深度融入,使交互从单向指令升级为双向协作,让智慧交互更具理解力与连贯性。这标志着折叠屏的意义超越了形态创新,正转向提供更高效、智能的整体体验体系。

  • 全球同步首发!智微智能Mini AI工作站携英特尔Panther Lake强势登场

    在CES 2025上,英特尔推出代号Panther Lake的第三代酷睿Ultra处理器,标志着AI PC进入全面革新时代。智微智能同步推出基于该平台的Mini AI工作站W144,旨在解决用户对极致AI体验与小巧机身兼顾的需求。W144搭载全新Panther Lake平台,采用英特尔18A制程工艺,集成Xe3架构GPU和第五代NPU,平台整体AI算力最高达180TOPS,较上代提升50%。它支持最大96GB高速内存,可流畅运行7B至120B的主流大模型,并借助智微AI助手实现本地一键部署。此外,W144配备Copilot专属按键、指纹开关,支持8K高清输出及丰富接口,小巧机身仅2L,兼顾高性能与灵活部署。

  • AI日报:清华开源TurboDiffusion视频增速100倍;腾讯推ETC首款AI智能体;X平台推出AI图片编辑器

    本期AI日报聚焦多项技术突破与应用创新。清华开源TurboDiffusion框架,将AI视频生成速度提升200倍,消费级显卡也能秒出大片。腾讯混元推出ETC领域首款AI智能体,通过多模态交互提升出行体验。阿里通义千问发布新一代图像编辑模型Qwen-Image-Edit-2511,大幅提升人物一致性编辑能力。京东物流在英国启用首个“智羚仓”,近200台自研机器人提升分拣效率。1min.AI推出终身全能计划,

  • AI日报:腾讯开源3D动作神器混元Motion1.0;罗永浩发布AI讲书App“且听”;夸克AI眼镜首次OTA

    本期AI日报聚焦多领域动态:腾讯开源10亿参数文生3D动作模型,赋能游戏影视;罗永浩发布AI讲书App“且听”,年费不足40元;京东上线自营租赁业务,推动机器人技术普及;夸克AI眼镜首次OTA升级,新增图文备忘等功能;MiniMax启动港股IPO,拟募资约41.9亿港元;阿里通义实验室推出多模态智能代理MAI-UI,性能超越同行;百度文心AI发布年度提示词“工作”,反映社会关注;2026年“两新”政策新增智能眼镜等产品补贴,加速AI终端落地。

今日大家都在搜的词: