首页 > 业界 > 关键词  > FouriScale最新资讯  > 正文

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

2024-04-08 14:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。

image.png

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。

此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。

实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括SD1.5,SD2.1和 SDXL1.0),生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。

FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。

举报

  • 相关推荐
  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • Meta拟重金加码AI赛道,传将斥资超百亿美元投资Scale AI

    Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资,金额可能高达或超过 100 亿美元……

  • 雷军为魏建军打call:35周年生日快乐!长城汽车一定会越来越好

    此前,长城董事长魏建军今日发文表示:今天,长城汽车35岁了。35年一路风风雨雨,感谢大家的关注、支持和厚爱。 7月,我们计划了很多的活动,给大家汇报未来的战略规划,也一定努力为全球用户提供更优质的产品。 视频中,魏建军透露,长城汽车拍摄了一个名为《年方三十五》的短片,预计会延期发布。 他表示,未来五年的技术路线、市场路线、公司的发展路线和战

  • 如何使用 DeepSeek 生成客诉流程图设计?

    文章介绍利用AI工具DeepSeek一键生成专业泳道图的方法。传统手动绘制流程耗时易错,现在只需输入指令,AI就能自动生成跨职能泳道图并标注SLA时间节点。该工具适合产品经理、客服主管等各类职场人士,能显著提升工作效率和图表质量。使用步骤:1.登录DeepSeek官网;2.输入生成指令;3.AI自动解析流程逻辑并生成标准化图表;4.支持SVG格式输出预览或下载。工具免费且操作简便。

  • 数势科技凭SwiftAgent获评 IDC「数据管理分析与生成式AI」中国代表厂商

    IDC最新报告显示,数据管理分析与生成式AI应用呈现四大技术趋势:数据分析平台、数据平台、决策自动化和数据流管理。59%企业计划在2025年前投资自动化基础设施和AI解决方案。数势科技自主研发的SwiftAgent 3.0智能分析平台,通过实时数据洞察、异常预警和智能策略建议,构建"分析-决策-行动"闭环,显著提升企业响应速度。该平台整合企业知识库和历史数据,提供可�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 商汤小浣熊牵手蚂蚁百宝箱,共建AI+数据分析方案

    商汤科技"小浣熊家族"与蚂蚁集团旗下智能体开发平台"蚂蚁百宝箱"达成生态合作,双方将联合打造"AI数据分析助手",为百宝箱用户提供大模型服务。该助手将支持多模态输入,能精准解析用户意图并提供针对性分析建议。目前小浣熊已推出网页版和小程序版,未来将登陆支付宝平台。此次合作将推动AI+数据分析场景落地,后续双方还将共同打造使用教程

  • 用户总收不到推送?EngageLab黑科技让消息直达,送达率提升40%

    EngageLab AppPush SDK提供消息增强功能,通过自有长连接通道将通知转为应用内消息,确保用户关闭系统通知时仍能收到重要信息。其技术架构基于TCP长连接,当检测到通知权限关闭且应用在前台时,消息会直接渲染为应用内弹窗或横幅。相比FCM,该方案在用户活跃度低时送达率可提升40%。开发者只需简单配置即可实现该功能,适用于电商订单提醒、网约车派单等时效性场景。最佳实践建议采用极简设计、用户可控机制,并利用测试工具优化推送策略,平衡消息触达与用户体验。

  • 绿舟:FSC认证证书有效期多久?过期后如何续证?费用是多少?

    FSC认证是国际森林管理委员会颁发的可持续林业认证体系,适用于木制品、纸制品、竹制品和天然橡胶制品。认证优势包括:1)获得亚马逊绿标资格,享受流量扶持;2)符合欧盟木材法规等国际法规要求;3)享受部分国家进口税率优惠;4)提升企业ESG形象。申请条件需满足:1)产品需带有FSC标签;2)企业需持有产销监管链认证或宣传许可。认证流程包含预评估、现场审核等环节,有效期5年。绿舟提供专业FSC认证服务,覆盖60%头部跨境企业,承诺认证失败全额退款,并提供1V1售后保障。

  • 海尔青岛洗衣机互联工厂获国际BSCI认证

    海尔青岛洗衣机互联工厂近日通过国际BSCI认证审核,在员工权益保障、环境保护等社会责任维度获得A级评价。这是继2021年成为全球家电行业首个"碳中和"工厂后,该工厂在可持续发展领域再获国际认可。BSCI认证由欧洲对外贸易协会发起,是进入国际供应链的重要通行证。此次认证将助力海尔拓展欧盟高端市场,提升国际竞争力。未来工厂将以认证为新起点,深化智能制造能力,为全球用户提供更优质产品体验。