首页 > 业界 > 关键词  > FouriScale最新资讯  > 正文

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

2024-04-08 14:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。

image.png

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。

此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。

实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括SD1.5,SD2.1和 SDXL1.0),生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。

FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。

举报

  • 相关推荐
  • 30岁华裔将成最年轻白手起家女富豪:是Scale AI联合创始人

    30岁华裔创业者郭露西以12.5亿美元身家成为全球最年轻白手起家女性亿万富豪。她22岁联合创办AI数据标注公司Scale AI,虽两年后退出但仍保留5%股份,随着公司估值从138亿跃升至250亿美元,其持股市值达12.5亿。郭露西随后创立创作者平台Passes,吸引邓恩、奥尼尔等名人入驻,估值1.5亿美元。这位旧金山湾区华裔二代从卡内基梅隆大学辍学创业,其财富轨迹印证了人工智能时代的技术红利。作为全球仅有的六位40岁以下白手起家女性亿万富豪之一,她表示"仍需保持清醒",继续在AI与内容经济交叉领域书写新的财富传奇。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 微信适配iPhone16Pro系列分辨率 灵动岛不再遮挡搜索框

    今日,微信发布iOS8.0.58正式版,官方更新说明仍为“修复了一些已知问题”。经实测,该版本终于解决了iPhone16Pro系列长期存在的分辨率适配问题。iPhone16Pro系列因屏幕尺寸微调,自去年发布后,微信界面长期存在UI元素拉伸、字体模糊等适配缺陷。此次更新后,界面UI与字体显示显著更清晰,灵动岛区域不再遮挡搜索框,用户体验得到改善。此

  • 小米智能摄像机4开启预约:4K超高分辨率 售价249元

    快科技4月14日消息,今日,小米官方宣布小米智能摄像机4正式开启预约,以 4K 超清画质 AI 智能守护” 为核心卖点,定价249元。作为家庭安防新品,小米智能摄像机4 搭载800万像素专业传感器,支持38402160分辨率的4K超清画质,搭配f/1.6大光圈与HDR技术,即使在强光或逆光等复杂光线环境下,也能清晰捕捉画面细节。其内置940nm红外补光灯,可实现10米范围内无红曝夜视,夜晚监�

  • AI日报:OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists;商汤科技日日新V6震撼发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列,标志着其在多模态和推理能力上的重大进展。新加坡在AI技能学习上投入的时间显著高于其他亚太国家,显示出其在AI人才培养方面的竞争力。

  • 华为鸿蒙PC搭载方舟图像引擎:像素级遮挡剔除 多窗无压力

    快科技5月8日消息,华为首款鸿蒙PC今日正式发布,其搭载方舟图形引擎,带来炫酷的视效体验。据介绍,方舟图形引擎基于方天视窗,高并行低负载统一渲染引擎,基于人因,交互优先,多窗重载依然流畅。传统方案中,窗口无序绘制,负载随窗口数量线性增加重载卡顿。而方舟图形引擎基于人因的窗口排序绘制,焦点窗口保证高帧率高负载稳定流畅。此外,方舟图形引擎支�

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • ChatGPT上线库功能:可管理AI生成图

    快科技4月16日消息,据报道,OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能,该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放,包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口,就能进入一个直观的图像网格界面。在这个界面中,用户可以轻�

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�