首页 > 业界 > 关键词  > FouriScale最新资讯  > 正文

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

2024-04-08 14:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。

image.png

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。

此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。

实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括SD1.5,SD2.1和 SDXL1.0),生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。

FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。

举报

  • 相关推荐
  • MSCI评级出炉:有落榜,有持平,海尔智家依旧最高

    MSCI最新ESG评级显示,家电行业表现分化:海尔智家再获AA级,维持国内最高评级;部分企业评级持平或落榜。A股白色家电板块ESG报告披露率达80%,显著高于市场平均水平。评级变化既检验企业阶段性成果,也为未来发展指明方向。在“双碳”背景下,将环境与社会责任转化为可持续竞争力,成为行业转型的关键。

  • 再获MSCI ESG行业最高评级!海尔智家为何总能位列行业ESG榜首

    海尔智家在MSCI最新ESG评级中再获AA级,居国内行业最高。其成功源于战略、系统、全球等多维度实践:将ESG融入三层治理架构,构建覆盖研发-采购-制造-物流-回收的绿色闭环,通过全球多元团队推动创新。这种可持续发展模式不仅赢得权威认可,更开辟了以ESG为核心竞争力的增长路径,为行业提供创造环境、社会与治理多重价值的启示。

  • MSCI:海尔智家ESG评级再获AA,国内行业最高

    国际权威指数机构MSCI最新ESG评级结果显示,海尔智家再获AA级,为国内行业最高评级。这体现其环境、社会及治理综合表现达全球领先水平,也获国际资本市场对可持续发展能力的认可。海尔通过建立全球碳管理体系,形成覆盖研发、制造、物流等全链条的绿色管理模式,推出超节能产品,并关注员工权益与供应链责任。在双碳背景下,绿色转型既是挑战也是机遇,将持续推动企业长期发展。

  • 双十一购物不烧脑!看AI全能搭子荣耀Magic8如何重塑消费体验

    双十一来到第17个年头,购物火热程度未减,未到11月,各类优惠已来,但与此同时,购物的复杂度似乎也在增加。蹲点等红包、消费券、国补、88VIP会员、凑满减、主播补贴,各种玩法满天飞,但想要弄清楚具体的规则已经不易,再配合计算金额、卡时间,原本的购物热情,正在逐渐被消耗。 在央视财经对消费者的调研中,几个

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 【CIM 加速,AI有方】No.2|格创东智GT Insights用AI工作流改写半导体智造决策范式

    在半导体制造领域,数据驱动的精准决策成为提升良率、降低成本的核心。传统数据分析系统面临三大挑战:技术门槛高、分析周期长、知识传承难。格创东智推出的GT+Insights产品,通过自然语言交互实现“对话即分析”,大幅降低使用门槛。该系统采用语义建模技术,将复杂物理数据转化为业务友好模型,支持分钟级全链路良率根因分析。目前已在多家半导体企业成功落地,助力客户显著提升生产效率,推动行业向智能化持续迈进。

  • 打破应用孤岛——个推AI SDK全面接入MCP全场景能力

    大模型技术正推动产业从移动互联网向智能互联网跃迁,用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK,集成自然语言交互、上下文理解、行业知识库等能力,帮助APP一键集成AI功能,降低开发成本。通过智能搜索、跨应用服务协同(MCP)等,实现从"字面匹配"到"意图识别"的升级,为用户提供精准服务。该方案已接入AI协同应用创新平台,支持多行业快速构建专业可信的智能应用生态。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • 卡萨帝AI空调全系亮相双11,与用户共创舒适空气C生活场景

    卡萨帝空调在双11期间推出全系AI产品,通过三大舒适维度重构用户体验:舒适分控采用双路送风系统,实现0.5℃精准控温与12米超远送风;舒适软风通过可变柔风技术避免直吹,形成广域均匀温场;舒适衡温借平隐式设计实现170°广角送风,解决传统空调直吹痛点。产品搭载十年包修服务,配合双补贴政策,以高端技术推动行业向AI智能化转型,重新定义舒适空气标准。

今日大家都在搜的词: