首页 > 业界 > 关键词  > LCM最新资讯  > 正文

新图像合成模型LCM SD生成图片推导步骤减少至4步!

2023-10-24 14:22 · 稿源:站长之家

要点:

  • 研究人员提出了一种新的图像合成模型,称为潜在一致性模型(LCM),可以在少步推理的情况下生成高分辨率的图像。

  • LCM是从预训练的潜在扩散模型(LDM)中有效地提取出来的,可以直接预测潜在空间中的概率流ODE的解,避免了多次迭代的需要。

  • LCM还引入了一种新的微调方法,称为潜在一致性微调(LCF),可以在定制的图像数据集上进行快速的少步推理,实现了文本到图像的生成。

站长之家(ChinaZ.com)10月24日 消息:图像合成是计算机视觉领域的一个重要研究方向,目标是根据给定的条件生成逼真的图像。近年来,潜在扩散模型(LDM)在这方面取得了显著的成果,能够生成高分辨率和高质量的图像。然而,LDM的一个主要缺点是它们需要进行多次迭代的采样过程,导致生成速度缓慢。

为了解决这个问题,本文受一致性模型的启发,提出了一种新的图像合成模型,称为潜在一致性模型(LCM)。LCM可以利用任何预训练的LDM,包括稳定扩散模型(SD),并通过少步推理生成高分辨率的图像。LCM的核心思想是将引导反向扩散过程视为求解一个增广概率流ODE(PF-ODE),并设计一个网络来直接预测该ODE在潜在空间中的解,从而减少迭代次数和计算量。

LCM可以从预训练的无分类器引导扩散模型中有效地提取出来,在只需要32个A100GPU小时的训练时间内,就可以生成768×768分辨率的高质量图像。以往我们用 SD 生成图片起码需要20步的推导步骤,但是使用 LCM 只需要4步就行,从一些测试结果看6-8步可能是一个理想的步骤。

image.png

项目地址:https://latent-consistency-models.github.io/

这个技术可以让4090在1秒钟生成10张512X512大小的图片.如果可以用在 Animetadiff 中的话可以大幅提高视频生成效率。

此外,论文还介绍了一种新的微调方法,称为潜在一致性微调(LCF),它专门用于在定制的图像数据集上微调预训练的LCM。LCF不需要教师扩散模型,只需要少量数据和训练步骤,就可以使LCM产生具有定制风格的图像。

论文在LAION-5B-Aesthetics数据集上对LCM进行了评估,结果表明LCM在文本到图像生成任务上达到了最先进的性能,并且具有快速、高保真、低失真和低噪声等优点。

论文还展示了LCM使用LCF在Pokemon和Simpsons两个定制数据集上生成图像的效果,证明了LCM具有良好的泛化能力和适应能力。

本文为图像合成领域提供了一种新颖且有效的方法,不仅提高了生成速度和质量,还降低了训练成本和数据需求。本文也为进一步探索潜在空间中的一致性和结构提供了一个有益的尝试。

举报

  • 相关推荐
  • 玄武云通过DCMM三级认证 数据管理能力获国家级权威认可

    玄武云科技(02392.HK)近日通过国家数据管理能力成熟度(DCMM)稳健级(三级)认证。该认证依据国家标准GB/T36073-2018,标志着公司在数据战略、治理、安全、质量等八大能力域达到国家权威标准。公司建立了覆盖数据标准管理、安全管理、质量管理的完整体系,将数据管理融入产品研发与业务流程,为云通信与AI业务发展奠定坚实基础。未来将持续深化数据能力建设,探索数据要素创新应用,助力行业数字化转型。

  • 剪辑快人一步!索尼ICE-Cloud助力婚礼视频团队高效高质交付

    北京二十四格文化有限公司(24Frames)成立于2004年,专注极致纪实影像美学,深耕婚礼电影、商业宣传、纪录片、综艺及艺人合作等领域。团队以真实事件与情感为核心,融合高级审美与技艺,打造富有共情力的影片,助力品牌传递深度价值。面对跨地域协作与高清素材传输等挑战,公司通过索尼与分秒帧联合推出的ICE-Cloud云平台优化流程,实现拍摄至交付的高效协同,显著�

  • 长视频,要MCN化?

    过去十多年,长视频平台习惯用头部综艺与大剧撬动增长:内容够强,自然破圈,声量带动会员与广告。 这套“内容中心逻辑”曾行之有效。 但短视频重写了注意力分配。用户不再愿意投入整段时间追一个叙事,三十秒的情绪刺激就足以满足娱乐需求。内容生命周期被压缩,哪怕是重金制作,也可能上线当周见顶、难以延展。 在这种环境下,平台不得不寻找新的增长方式。�

  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

  • 小渔夫“AIGC”双算法获国家备案,GEO效能再进阶!

    11月6日,国家网信办发布《境内深度合成服务算法备案清单》,小渔夫自主研发的“产品营销文本生成算法”和“博客文章文本生成算法”正式通过备案。这标志着公司在GEO出海营销领域实现合规化与标准化,两项算法分别用于高效生成多语言产品营销文案和深度行业博客内容,助力外贸企业精准构建AI时代内容优势,提升出海竞争力。

  • 坚定研发 GMCC美芝以原创性技术打造空调好“心脏”

    GMCC美芝15槽10极变频转子式压缩机自2025年投产以来,凭借静音、节能等革命性优势获行业认可。其应用三大原创技术:极致静音技术通过创新结构实现6Hz无异音,噪声较行业标杆再降5dB(A);宽域节能技术采用高效电机及流道优化,低频能效提升2%;高质智能制造技术引入自动化工艺,生产效率提升42%。这些突破彰显美芝作为全球空调压缩机领导品牌的技术实力,推动产业从规模领先迈向技术领先。

  • CEIC2025首场主论坛成功召开,消费电子创新趋势发布

    2025年11月6日,CEIC在深圳举办“智能生活”主论坛,吸引全球500余位消费电子行业专家参与。论坛聚焦AI浪潮下产业创新,探讨通过技术革新、生态共建与全球协作重塑智慧生活。嘉宾强调AI、大数据等技术正深度融合,推动消费电子向“泛在AI、生态协同、服务创新”三大方向演进,并发布《行业鸿蒙终端蓝皮书》,为产业融合提供参考,加速构建智能化未来。

  • 权威专家齐聚CDA详解YOUMAGIC舒立缇的创新价值,学术赋能促行业提升

    11月6-9日,中国医师协会皮肤科医师分会学术年会在重庆召开,聚焦新一代单极射频抗衰技术。会议中,专家深入解读了YOUMAGIC舒立缇单极射频的医学原理与技术优势,指出其单极有回路设计能实现更深层加热,有效促进胶原再生重塑,改善皮肤松弛。临床数据显示,该设备在安全性和有效性上表现优异,未来将持续深化医研合作,推动行业标准化与精准化发展。

  • 影视飓风CEO在相亲角被大妈吐槽 网友:大妈不识货

    网红博主Tim相亲时因简历学历低遭大妈吐槽,引发热议。简历显示他仅有初中学历,但从事摄影和视频制作,身高1.81米,离异单身,家庭背景良好。网友纷纷为其鸣不平,认为大妈“不识货”,并肯定其赚钱能力和真实接地气的形象。此事展现了网红在现实生活中的另一面。

  • 特斯拉磁悬浮Cybertruck车模上架中国官网 售价999元

    特斯拉磁悬浮Cybertruck车模11月12日在中国官网开售,定价999元。这款1:24比例模型精准还原实车细节,采用银色涂装与可亮车灯,内置14个LED灯,展现科技感。模型重293克,底座重1291克,确保稳定悬浮。使用时只需通电并放置于非金属表面,通过磁力实现悬浮效果,可静置观赏或轻触旋转,为收藏爱好者带来独特视觉体验。

今日大家都在搜的词: