首页 > 业界 > 关键词  > FouriScale最新资讯  > 正文

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

2024-04-08 14:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。

image.png

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。

此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。

实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括SD1.5,SD2.1和 SDXL1.0),生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。

FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。

举报

  • 相关推荐
  • 别再盯传统SEO了!AIBase GEO监控让品牌在AI搜索里C位出道

    随着AI搜索普及,品牌竞争转向生成引擎优化(GEO)新战场。传统SEO依赖网页排名,但AI模型直接生成答案,导致品牌在AI回答中的曝光陷入盲区。AIBase推出GEO品牌监控工具,实时追踪品牌在主流AI模型的提及情况,提供可见性分析、竞品对比及用户问题挖掘,帮助品牌优化内容策略,提升AI搜索存在感,让AI更倾向主动推荐。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

  • DocuVerse AI赋能:让企业文档“活”起来,开启智慧办公新体验

    飞天云DocuVerse通过AgentsCo AI智能体,将传统文档管理系统升级为“可对话”的知识资产。用户只需右键点击文件即可直接提问,AI能快速提炼技术专利、合同条款等核心信息,实现零门槛交互。系统支持封装高频文档集成为专属智能体(如HR政策助手、客服知识库),7×24小时响应咨询。在研发、销售等场景中,AI加速创新进程、精准匹配客户需求,推动办公模式从“人力驱动”向“智能驱动”升级。

  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • 平安云原生AI算力资源调度平台,荣获IDC “AI-就绪数字基础设施领军者优秀奖”

    近日,IDC公布2025年中国未来企业大奖获奖名单,平安科技打造的《云原生AI算力资源调度平台》创新项目荣获“AI就绪数字基础设施领军者优秀奖”。该平台通过统一资源池化管理、动态调度及GPU虚拟化等技术,显著提升资源利用率约30%,降低运营成本,并支持金融级高可用与弹性伸缩,助力企业高效应对AI推理与训练场景需求,体现了平安在AI基础设施构建与产业赋能方面的技术实力与国际认可。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

  • Hugging Face创始人x小红书技术副总裁对谈:开源、AI与技术人的成长

    小红书科技与Red++ Academy在1024程序员节举办直播,技术副总裁凯奇、语音模型负责人风龙与Hugging Face联合创始人Thomas Wolf围绕三大核心观点展开AMA对话:AI编程正成为基础能力;开源是技术发展的核心引擎;实现有"人味"的AGI路径清晰但仍需攻克创造力、复杂环境感知等难题。讨论覆盖开源价值、AGI发展瓶颈、AI人味化实践,强调技术人需提升问题定义与框架性解决能力,并分享了AI编码提效、学习新技术的方法。直播展现小红书从文本模型到语音模型的开源布局,旨在降低技术使用门槛,推动社区共进。

  • 双十一购物不烧脑!看AI全能搭子荣耀Magic8如何重塑消费体验

    双十一来到第17个年头,购物火热程度未减,未到11月,各类优惠已来,但与此同时,购物的复杂度似乎也在增加。蹲点等红包、消费券、国补、88VIP会员、凑满减、主播补贴,各种玩法满天飞,但想要弄清楚具体的规则已经不易,再配合计算金额、卡时间,原本的购物热情,正在逐渐被消耗。 在央视财经对消费者的调研中,几个

今日大家都在搜的词: