首页 > 业界 > 关键词  > LCM最新资讯  > 正文

新图像合成模型LCM SD生成图片推导步骤减少至4步!

2023-10-24 14:22 · 稿源:站长之家

要点:

  • 研究人员提出了一种新的图像合成模型,称为潜在一致性模型(LCM),可以在少步推理的情况下生成高分辨率的图像。

  • LCM是从预训练的潜在扩散模型(LDM)中有效地提取出来的,可以直接预测潜在空间中的概率流ODE的解,避免了多次迭代的需要。

  • LCM还引入了一种新的微调方法,称为潜在一致性微调(LCF),可以在定制的图像数据集上进行快速的少步推理,实现了文本到图像的生成。

站长之家(ChinaZ.com)10月24日 消息:图像合成是计算机视觉领域的一个重要研究方向,目标是根据给定的条件生成逼真的图像。近年来,潜在扩散模型(LDM)在这方面取得了显著的成果,能够生成高分辨率和高质量的图像。然而,LDM的一个主要缺点是它们需要进行多次迭代的采样过程,导致生成速度缓慢。

为了解决这个问题,本文受一致性模型的启发,提出了一种新的图像合成模型,称为潜在一致性模型(LCM)。LCM可以利用任何预训练的LDM,包括稳定扩散模型(SD),并通过少步推理生成高分辨率的图像。LCM的核心思想是将引导反向扩散过程视为求解一个增广概率流ODE(PF-ODE),并设计一个网络来直接预测该ODE在潜在空间中的解,从而减少迭代次数和计算量。

LCM可以从预训练的无分类器引导扩散模型中有效地提取出来,在只需要32个A100GPU小时的训练时间内,就可以生成768×768分辨率的高质量图像。以往我们用 SD 生成图片起码需要20步的推导步骤,但是使用 LCM 只需要4步就行,从一些测试结果看6-8步可能是一个理想的步骤。

image.png

项目地址:https://latent-consistency-models.github.io/

这个技术可以让4090在1秒钟生成10张512X512大小的图片.如果可以用在 Animetadiff 中的话可以大幅提高视频生成效率。

此外,论文还介绍了一种新的微调方法,称为潜在一致性微调(LCF),它专门用于在定制的图像数据集上微调预训练的LCM。LCF不需要教师扩散模型,只需要少量数据和训练步骤,就可以使LCM产生具有定制风格的图像。

论文在LAION-5B-Aesthetics数据集上对LCM进行了评估,结果表明LCM在文本到图像生成任务上达到了最先进的性能,并且具有快速、高保真、低失真和低噪声等优点。

论文还展示了LCM使用LCF在Pokemon和Simpsons两个定制数据集上生成图像的效果,证明了LCM具有良好的泛化能力和适应能力。

本文为图像合成领域提供了一种新颖且有效的方法,不仅提高了生成速度和质量,还降低了训练成本和数据需求。本文也为进一步探索潜在空间中的一致性和结构提供了一个有益的尝试。

举报

  • 相关推荐
  • 玄武云通过DCMM三级认证 数据管理能力获国家级权威认可

    玄武云科技(02392.HK)近日通过国家数据管理能力成熟度(DCMM)稳健级(三级)认证。该认证依据国家标准GB/T36073-2018,标志着公司在数据战略、治理、安全、质量等八大能力域达到国家权威标准。公司建立了覆盖数据标准管理、安全管理、质量管理的完整体系,将数据管理融入产品研发与业务流程,为云通信与AI业务发展奠定坚实基础。未来将持续深化数据能力建设,探索数据要素创新应用,助力行业数字化转型。

  • 坚定研发 GMCC美芝以原创性技术打造空调好“心脏”

    GMCC美芝15槽10极变频转子式压缩机自2025年投产以来,凭借静音、节能等革命性优势获行业认可。其应用三大原创技术:极致静音技术通过创新结构实现6Hz无异音,噪声较行业标杆再降5dB(A);宽域节能技术采用高效电机及流道优化,低频能效提升2%;高质智能制造技术引入自动化工艺,生产效率提升42%。这些突破彰显美芝作为全球空调压缩机领导品牌的技术实力,推动产业从规模领先迈向技术领先。

  • 传承与创新并行,八马茶业斩获C-CSI茶叶连锁店顾客满意度三连冠

    八马茶业连续三年蝉联中国顾客满意度指数茶叶连锁店榜首,全国门店超3700家。凭借“品质为王”理念,其红茶、岩茶、铁观音三大品类销量多年领跑。通过全渠道布局与智能化生产基地,实现线上线下协同,保障产品稳定供应与服务一致性。未来将持续以品质为核心,推动传统茶文化创新,引领行业高质量发展。

  • PCEVA深度评测:忆联AE531 QLC SSD以高效稳定,从容应对多元应用场景挑战

    PCEVA对忆联首款QLC商用消费级SSD AE531进行深度评测。该产品在性能测试中全面超越同级,顺序读写达6817/5680MB/s,SLC缓存策略提供约110GB空间,60℃满载无降速。跨平台兼容性与低TCO设计满足企业降本增效需求,验证了QLC在商用场景下的稳定优势。

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • 特斯拉Cybercab不配备方向盘和踏板 预计2026年二季度下线

    特斯拉CEO马斯克透露,Cybercab无人驾驶出租车将于2026年第二季度量产。该车型颠覆传统设计,无方向盘和踏板,完全依赖FSD全自动驾驶技术,采用纯视觉方案。整车成本预计低于3万美元,配备超大后备箱和鸥翼门,内饰极简仅设中控屏。车辆支持感应充电,专为无人出租场景优化,将推动汽车行业变革。

  • 直播下半场,美链MCN机构创始人张睿重构增长新路径

    在直播行业进入下半场的背景下,美链MCN创始人张睿峰提出:流量成本攀升,多数品牌直播亏损,需立足公域基础,将私域作为用户深度服务补充。核心是理解算法底层逻辑——标签系统、画像匹配和效率分配,构建PCP模型(直播间标签、团队能力与优质内容匹配)。强调“产品-主播-用户”三象合一,避免人货场概念模糊。私域实践应聚焦售后、测品及信息获取,提升IP竞争力。直播下半场竞争归根结底是认知与效率的比拼。

  • DocuVerse AI赋能:让企业文档“活”起来,开启智慧办公新体验

    飞天云DocuVerse通过AgentsCo AI智能体,将传统文档管理系统升级为“可对话”的知识资产。用户只需右键点击文件即可直接提问,AI能快速提炼技术专利、合同条款等核心信息,实现零门槛交互。系统支持封装高频文档集成为专属智能体(如HR政策助手、客服知识库),7×24小时响应咨询。在研发、销售等场景中,AI加速创新进程、精准匹配客户需求,推动办公模式从“人力驱动”向“智能驱动”升级。

  • EBC金融集团携手牛津:洞见经济本质实现投资认知突围

    EBC金融集团与牛津大学经济系将于2025年11月11日联合举办第三期“经济学家都干了什么”系列研讨会。本期主题聚焦复杂时代的金融素养培养,旨在帮助投资者建立牛津经济学思维,弥合公众与专家间的认知鸿沟。研讨会将引入“解释-参与-教育”三维框架,结合牛津教授的前沿研究与EBC CEO的实战经验,探讨央行沟通策略及有效经济教育模式,助力提升市场洞察力与决策能力。

  • 别再盯传统SEO了!AIBase GEO监控让品牌在AI搜索里C位出道

    随着AI搜索普及,品牌竞争转向生成引擎优化(GEO)新战场。传统SEO依赖网页排名,但AI模型直接生成答案,导致品牌在AI回答中的曝光陷入盲区。AIBase推出GEO品牌监控工具,实时追踪品牌在主流AI模型的提及情况,提供可见性分析、竞品对比及用户问题挖掘,帮助品牌优化内容策略,提升AI搜索存在感,让AI更倾向主动推荐。

今日大家都在搜的词: