首页 > 业界 > 关键词  > LayerDiffusion最新资讯  > 正文

ContorlNet作者的研究!LayerDiffusion可生成商业素材级别透明PNG图片

2024-02-28 15:06 · 稿源:站长之家

划重点:

⭐️ 一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

⭐️ LayerDiffusion使得大型已经过预训练的潜在扩散模型能够创造透明图像。

⭐️ 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层,拥有多种应用场景。

站长之家(ChinaZ.com)2月28日 消息:用于生成图像的大规模模型已经成为计算机视觉的基础而图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。

ContorlNet的作者研究了一款名为LayerDiffusion项目,使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。LayerDiffusion可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

image.png

它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。

研究人员在训练模型时采用了涉及人机互动的方法,收集了大量透明图像层数据。研究结果显示,潜在透明技术不仅可以应用于各种开源图像生成器,还可以适配多种条件控制系统,实现不同应用场景下的层生成和结构控制。

研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。

image.png

一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材,展现出技术的强大和实用性。

论文入口:https://arxiv.org/pdf/2402.17113.pdf

举报

  • 相关推荐
  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 数贸会今日开幕!每日互动展台人气火爆,GAI Station引领AI办公新体验

    2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司(展位7A-T022)集中展示了AI产业实践与数据流通领域成果,重点推出10万元级智能工作站GAI+Station,集成写作、会议纪要、智能问答等功能,内置8大模型能力,破解成本与安全痛点。其“发数站”战略打通数据高效流通链路,已在医疗、交通等多领域落地,“数智绿波”应用覆盖全国30多个省市,通行效率提升20%以上。此外,AITA超级营销助手实现升级,机器狗互动表演吸引关注。展会期间将举办10余场专业发布,涵盖数据要素、大模型应用等行业实战,助力企业把握数字化机遇。

  • 真我GT8 Pro镜头模组支持DIY!可拆、可拼、可换

    真我GT8+Pro手机公布镜头模组创新设计,采用可拆卸、可拼装、可更换的Deco模块,提供圆形、方形及机器人造型供用户DIY。搭载2亿像素潜望长焦“Ultra之眼”,配备对称双扬声器、X轴线性马达及3D超声波屏下指纹。全系配备2K+144Hz京东方Q10+发光材料屏幕,峰值亮度达4000nit。首批搭载骁龙8至尊版处理器,并配备电竞独显芯片R1,实现“王炸双芯”配置。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 开启移动智能新时代 回顾Galaxy AI的创新之旅

    三星通过Galaxy AI开启智能手机AI驱动新时代。2024年Galaxy S24系列问世,标志AI手机进入创新新阶段。AI深度赋能沟通、创意与互联,重塑生活方式。三星持续推动多模态AI发展,将其融入可穿戴设备、平板、PC等产品,扩展移动AI生态系统。自去年Galaxy AI落地应用后,重新定义更自由、智能的生活方式,推动新时代持续演进。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 下一代旗舰!Nordic54L绝鲨MAX方案ATK A9大师版重磅登场

    ATK A9大师版鼠标在经典模具基础上深度优化,搭载自研Nordic54L绝鲨MAX方案,实现极致操控与超长续航。58项模具优化提升手感,按键延迟低至0.263ms,配备PAW3950传感器,满足职业电竞需求。内置800mAh电池配合低功耗方案,续航达600小时,大幅减轻充电焦虑。该产品延续A9系列热销基因,首发起售价199元,9月25日20:00正式开售,是面向玩家的全新力作。

  • AI为他们圆了导演梦

    “我们这么小团队做的‘小东西’真的可以吗?” 当得知自己作品《小怪物》入围釜山电影节时,黎晓薇的第一反应是“难以置信”,因为就在几个月前她才开始正式接触AI工具。 和黎晓薇一样幸运的,还有徐文君、小文和MANYMANY团队,这些来自中国的AI创作者们分别带来了《一目五先生》《权利童话》和《九宵》三部作品。 “未来影像计划”由即梦AI联合火山引擎、上海电�

  • “老登”应用,霸榜AI

    AI应用的争夺战,打到哪儿了? 如果把整个AI行业想象成一座金矿:基础设施层(芯片、算力)相当于“卖铲子”,提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”,告诉大家哪里有金子;而应用层是直接“下场淘金”,把金子变现。 近两年AI应用的使用者越来越多,QuestMobile数据显示,截止到2025年8月,移动端AI应用用户规模达6.45亿,PC端达2.04亿。其中原生APP亿级应用的

今日大家都在搜的词: