首页 > 业界 > 关键词  > DiffBIR最新资讯  > 正文

超强大放大和恢复模型DiffBIR 减少模糊并锐化图像细节

2023-09-13 10:00 · 稿源:站长之家

站长之家(ChinaZ.com)9月13日 消息:DiffBIR是一个利用生成对抗网络进行盲图像复原的开源项目。它能够在不需要对应的高质量图片的情况下,对低质量的图片进行去噪、超分辨率以及颜色校正等复原。

image.png

项目地址:https://github.com/XPixelGroup/DiffBIR

DiffBIR由清华大学和上海人工智能实验室的研究人员共同开发。它采用了两阶段网络结构,第一阶段使用SwinIR等模型去除图像中的编码模糊、JPEG压缩噪声等低级退化。第二阶段使用类似Stable Diffusion的预训练模型,作为图像先验,引导网络生成高质量的图像。

核心功能:

1. 采用端到端的网络,可以对包括高频和低频在内的各种图像退化进行复原

2. 利用生成模型作为先验,无需匹配的高质量图像即可实现盲复原

3. 支持人脸图像和普通场景图像的复原,效果明显优于传统算法

4. 模型小巧高效,可以部署到各类设备中,满足实际应用需求

5. 提供易用的命令行接口、Web Demo等,可以轻松体验强大的复原效果

6. 模型和代码全部开源,支持用户自定义训练和开发

DiffBIR开创了盲图像复原的新方向,在保证效果的同时,免除了匹配高质量图像的要求。它可以广泛应用于旧照片修复、摄像头图像增强等应用场景,为图像处理任务带来新的可能。总体来说,这是一个高质量、高实用价值的开源项目。

举报

  • 相关推荐
  • Kandinsky1:3.3亿参数强大模型,文本生成逼真图像

    计算机视觉和生成建模领域取得了显著进展,推动了文本到图像生成的不断发展。各种生成架构,包括基于扩散的模型,在提高生成图像的质量和多样性方面发挥了关键作用。研究人员强调了解决内容问题的需求,建议采取实时监管或强大的分类器来减轻不良输出。

  • T2I扩散模型PIXART-α:图像生成质量媲美Stable Diffusion

    文本到图像生成模型如DALLE2、Imagen和StableDiffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响为研究社区和企业提供了许多下游应用的机会。控制功能:PIXART-α还提供了控制功能,允许用户生成定制图像,精确修改物体颜色等,以满足特定需求。

  • Open AI推出DALL・E3图像生成模型:理解能力提升 细节更丰富

    OpenAI宣布推出DALL・E3图像生成模型,它的前身是DALL・E2。相比于之前的版本,DALL・E3在理解细微差别和细节方面有了显著提升,能够更准确地将想法转化为图像。OpenAI表示,DALL·E3目前处于研究预览阶段,将于10月份通过API向ChatGPTPlus和企业客户提供,并于今年秋天晚些时候在实验室中提供。

  • Deci AI推出8.2亿参数的文本到图像潜在扩散模型DeciDiffusion 1.0

    DeciAI最近推出了DeciDiffusion1.0,这是一项令人振奋的创新,旨在解决文本到图像生成领域的挑战。将文本描述转化为栩栩如生的图像一直是人工智能领域的难题,因为这涉及到自然语言理解和视觉内容创建之间的巨大差距。随着研究人员继续推动AI能够实现的界限,我们可以期待进一步的突破,使我们更接近一个世界,其中文本无缝地转化为引人入胜的图像,从在各个行业和领�

  • JoJoGAN:可一键生成艺术化面部图像的深度学习模型

    JoJoGAN是一个深度学习模型,该模型可以将普通的面部图像转化为艺术化的作品,无需专业艺术家或设计师的干预。这项技术可用于各种应用领域,包括艺术创作、虚拟角色设计、社交媒体滤镜和广告营销。它的技术细节和使用指南在文章中都得到了详细介绍,为感兴趣的用户提供了宝贵的资源。

  • 多模态大模型MMICL霸榜 支持文本图像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • 新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度

    StableSR是一种创新性的AI方法,旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型,这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术,如时间感知编码器、可控特征包装模块和渐进聚合采样策略,StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。

  • AI新模型KOSMOS-G:实现零样本高保真图像生成

    图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

  • 多模态大模型KOSMOS-2.5 擅长处理文本密集图像

    随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。

  • AI视野:OpenAI开发者大会开放申请;微软在开发AI模型时泄露了38TB敏感数据;螺旋控制图像Illusion Diffusion爆火

    2023年OpenAI开发者大会正式开始接受申请,计划于11月6日在旧金山举行,涵盖主题演讲、分组会议和晚间招待会。参会者需提交申请,门票费用为450美元,名额有限。🤖📱💼AI应用ChatVideo:用GPT分析和总结视频ChatVideo是基于人工智能的视频分析和管理工具,利用其独特的AI技术,能够通过语音识别快速转录视频内容成文�