首页 > 业界 > 关键词  > FouriScale最新资讯  > 正文

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

2024-04-08 14:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。

image.png

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。

此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。

实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括SD1.5,SD2.1和 SDXL1.0),生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。

FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。

举报

  • 相关推荐
  • 京东云升级JoyScale AI算力平台:支持超10万卡调度

    京东云在上海发布九大AI产品,包括智能体2.0、大模型开发平台和算力平台等,助力企业重构AI基础设施。针对AI应用深化带来的技术挑战,京东云推出以GPU为核心的JoyScale算力平台,具备两大优势:极致算力性能,支持单集群万卡调度和超10万卡全局调度,大模型算力利用率提升至75%;灵活异构算力管理,适配十余种国产算力,集群利用率提升70%。基于京东复杂场景实践,京东云构建一站式大模型产品矩阵,从底层算力设施到上层应用开发,支持企业快速部署大模型及应用。未来将持续深耕技术,以开放协同的生态理念拓展大模型技术边界,助力企业重塑AI生产力。

  • Meta拟重金加码AI赛道,传将斥资超百亿美元投资Scale AI

    Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资,金额可能高达或超过 100 亿美元……

  • 雷军凌晨为小米打Call 清晨打卡健身 难怪周鸿祎钦佩!

    快科技5月24日消息,昨晚23:39分,小米集团创始人雷军发文向网友道晚安,并表示这个世界不会永远是强者恒强,后来者总有机会!”博文中,雷军发布的配图,正是小米15周年战略新品发布会上,他介绍完搭载小米自研芯片的三款旗舰产品后,谈到了小米11年造芯之路的艰辛,身后的配图写到,后来者一开始肯定不完美,总会被嘲笑、被怀疑,但后来者总有机会。”今日早间7:10分,雷军又晒出了健身房打卡照,并分享了疾风知劲草,路遥知马力”这句同样在小米15周年战略新品发布会上曾让他激动呐喊的话语。从深夜到清晨,两条微博相距不到6小时,这?

  • 如何辨别AI生成的图片文字声音?分享一些小技巧

    在人工智能生成内容日益普及的今天,辨别AI生成的图片、文字和声音变得尤为重要。以下是一些实用的技巧,希望能帮到你……

  • 如何使用 DeepSeek 生成客诉流程图设计?

    文章介绍利用AI工具DeepSeek一键生成专业泳道图的方法。传统手动绘制流程耗时易错,现在只需输入指令,AI就能自动生成跨职能泳道图并标注SLA时间节点。该工具适合产品经理、客服主管等各类职场人士,能显著提升工作效率和图表质量。使用步骤:1.登录DeepSeek官网;2.输入生成指令;3.AI自动解析流程逻辑并生成标准化图表;4.支持SVG格式输出预览或下载。工具免费且操作简便。

  • 商汤小浣熊牵手蚂蚁百宝箱,共建AI+数据分析方案

    商汤科技"小浣熊家族"与蚂蚁集团旗下智能体开发平台"蚂蚁百宝箱"达成生态合作,双方将联合打造"AI数据分析助手",为百宝箱用户提供大模型服务。该助手将支持多模态输入,能精准解析用户意图并提供针对性分析建议。目前小浣熊已推出网页版和小程序版,未来将登陆支付宝平台。此次合作将推动AI+数据分析场景落地,后续双方还将共同打造使用教程

  • 用户总收不到推送?EngageLab黑科技让消息直达,送达率提升40%

    EngageLab AppPush SDK提供消息增强功能,通过自有长连接通道将通知转为应用内消息,确保用户关闭系统通知时仍能收到重要信息。其技术架构基于TCP长连接,当检测到通知权限关闭且应用在前台时,消息会直接渲染为应用内弹窗或横幅。相比FCM,该方案在用户活跃度低时送达率可提升40%。开发者只需简单配置即可实现该功能,适用于电商订单提醒、网约车派单等时效性场景。最佳实践建议采用极简设计、用户可控机制,并利用测试工具优化推送策略,平衡消息触达与用户体验。

  • 绿舟:FSC认证证书有效期多久?过期后如何续证?费用是多少?

    FSC认证是国际森林管理委员会颁发的可持续林业认证体系,适用于木制品、纸制品、竹制品和天然橡胶制品。认证优势包括:1)获得亚马逊绿标资格,享受流量扶持;2)符合欧盟木材法规等国际法规要求;3)享受部分国家进口税率优惠;4)提升企业ESG形象。申请条件需满足:1)产品需带有FSC标签;2)企业需持有产销监管链认证或宣传许可。认证流程包含预评估、现场审核等环节,有效期5年。绿舟提供专业FSC认证服务,覆盖60%头部跨境企业,承诺认证失败全额退款,并提供1V1售后保障。

  • 传统有氧正在吃掉你的腹直肌!SRW-Msc¹塑型粉重写燃脂算法

    文章探讨了都市健身人群面临的减脂瓶颈问题:即使坚持运动和控制饮食,体脂率仍难下降。分析指出这是身体代谢机制与能量利用效率的深层博弈——当身体适应固定运动强度后,会本能降低能量消耗效率,导致脂肪分解减缓。传统减脂方案往往陷入两难:单纯高强度有氧可能流失肌肉,而过度控制热量则触发代谢保护性下降。SRW-Msc¹塑形粉通过三大核心成分的科学配比实现突破:myHMB®保护肌肉完整性,OKG加速脂肪代谢,BHB控制食欲。三者协同作用能提升脂肪燃烧效率至普通运动的2-3倍,同时避免肌肉流失,实现减脂与塑形的双重效果。研究显示,使用该配方后每减1公斤脂肪仅伴随0.1公斤肌肉流失,远优于传统方式0.3公斤的肌肉损耗比例。

  • AI日报:腾讯混元图像2.0毫秒级生图;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶全球TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。