谷歌推新型生成式AI模型IGN 单步即可生成逼真图像

2023-11-14 09:11 · 稿源：站长之家

要点:
1. UC伯克利和谷歌提出的幂等生成网络（IGN）是一种新型生成式AI模型，能够通过单步生成逼真图像，不需要多步迭代。
2. IGN与传统的生成对抗网络（GAN）和扩散模型不同，它是一个自对抗模型，同时完成生成和判别，并尝试在单个步骤中将输入映射到目标数据分布。
3. 通过实验证明，虽然IGN目前生成结果无法与最先进的模型竞争，但在推理方面更加有效，可以输出一致性更高的结果，具有潜在的医学图像修复应用。

站长之家（ChinaZ.com）11月14日消息:生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络（IGN），只需单步即可生图。当前，生成式AI模型，比如GAN、扩散模型或一致性模型，通过将输入映射到对应目标数据分布的输出，来生成图像。通常情况下，这种模型需要学习很多真实的图片，然后才能尽量保证生成图片的真实特征。

最近，来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络（IGN）。IGNs可以从各种各样的输入，比如随机噪声、简单的图形等，通过单步生成逼真的图像，并且不需要多步迭代。这一模型旨在成为一个「全局映射器」(global projector)，可以把任何输入数据映射到目标数据分布。

论文地址:https://arxiv.org/abs/2311.01462

有趣的是，《宋飞正传》中一个高效的场景竟成为研究人员的灵感来源。这个场景很好地总结了「幂等运算符」（idempotent operator）这一概念，是指在运算过程中，对同一个输入重复进行运算，得到的结果总是一样的。

IGN与GAN、扩散模型有两点重要的不同之处:与GAN不同的是，IGN无需单独的生成器和判别器，它是一个「自对抗」的模型，同时完成生成和判别。与执行增量步骤的扩散模型不同，IGN尝试在单个步中将输入映射到数据分布。位于同一空间，即它们的实例具有相同的维度。

研究人员承认，现阶段，IGN的生成结果无法与最先进的模型相竞争。在实验中，使用的较小的模型和较低分辨率的数据集，并在探索中主要关注简化方法。当然了，基础生成建模技术，如GAN、扩散模型，也是花了相当长的时间才达到成熟、规模化的性能。研究人员在MNIST（灰度手写数字数据集）和 CelebA(人脸图像数据集)上评估IGN，分别使用28×28和64×64的图像分辨率。

研究人员采用了简单的自动编码器架构，其中编码器是来自DCGAN的简单五层鉴别器主干，解码器是生成器。训练和网络超参数如表1所示。图4显示了应用模型一次和连续两次后两个数据集的定性结果。如图所示，应用IGN 一次（f (z）) 会产生相干生成结果。然而，可能会出现伪影，例如MNIST数字中的孔洞，或者面部图像中头顶和头发的扭曲像素。

再次应用 f （f (f (z）)) 可以纠正这些问题，填充孔洞，或减少面部噪声斑块周围的总变化。表明，当图像接近学习流形时，再次应用f会导致最小的变化，因为图像被认为是分布的。作者通过执行操作证明IGN具有一致的潜在空间，与GAN所示的类似，图6显示了潜在空间算法。

研究人员还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」，来验证IGN「全局映射」的潜力。研究人员通过对噪声图像x+n 进行去噪、对灰度图像原始图像x，这些逆任务是不适定的。IGN能够创建符合原始图像结构的自然映射。如图所示，连续应用f可以提高图像质量（例如，它消除了投影草图中的黑暗和烟雾伪影）。通过以上结果可以看出，IGN在推理方面更加有效，在训练后只需单步即可生成结果。它们还可以输出更一致的结果，这可能推广到更多的应用中，比如医学图像修复。

（举报）

相关推荐

关键词：

AI模型

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
AI模型库哪个好？2025年主流AI模型选型指南与API成本对比推荐

AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型，提供透明化成本与能力信息，帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛，使非技术背景决策者也能深度参与技术选型，加速创新迭代并降低试错成本。

AI模型库企业AI集成 AI驱动型应用
荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

在最近与科隆国际游戏展同期举办的Devcom开发者大会上，AI再次赚足了脸面。微软、腾讯、谷歌、Meta等国际巨头带来超过20场AI相关议题，“AI如何提升游戏美术生产效率”、“AI工具如何与传统工作流无缝集成”、“AI在动画生成、场景构建等具体环节的应用案例”成为开发者们探讨的重点内容。近年来，游戏美术对精细度的要求呈现指数级增长。随之而来的是几何级增长的

AI 游戏美术生产效率
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5，实现秒级高质量视频生成，支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升，覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手，降低使用门槛，用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用，加速行业落地。

AI视频生成 PixVerse V5
将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI项目规模化应用面临不可预测的运营成本挑战，尤其是大模型API调用费用难以精准预测，导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移，在项目可行性分析阶段引入AIbase等成本计算工具，实现成本可视化，支持技术选型和预算建模，从被动应对转向主动管理，提升AI应用的经济性和可持续竞争力。

数字化转型人工智能运营成本
AI大模型费用计算器：新手如何避开工具选择的三大坑

文章指出AI初学者常陷入三个陷阱：盲目选择昂贵工具、被华丽宣传迷惑、忽视隐藏成本。建议使用AIbase.cn等专业平台进行系统化评估，通过费用计算器对比主流模型成本，基于实际需求而非营销话术做决策。关键是要先对比分析再试用，找到真正契合业务需求的解决方案，避免资源浪费。
AI大模型费用计算器：新手如何不再为选择工具而头疼

文章探讨了AI工具选择困境，推荐使用AIbase.cn导航站。该站通过分类筛选、标签过滤和对比功能，帮助用户快速找到合适工具，避免信息过载。强调技术应服务于人，好的工具应降低使用门槛，而非增加困惑。
汪喵灵灵亮相亚宠论坛，AI大模型破解异宠医疗资源困局

2025年亚洲宠物展“亚洲小宠生态论坛”近日举办，汪喵灵灵创始人Luke受邀出席，分享AI宠物医疗大模型如何解决行业资源短缺、推动服务普惠化。该平台覆盖20多种宠物诊疗，通过解析海量文献建立健康档案系统，提供免费问诊与科学养护建议，降低养宠门槛。2024年已通过国家算法备案，成为业内首个合规认证的宠物健康大模型，致力于让每只宠物享有平等医疗关怀。

宠物AI医疗亚洲宠物展览会小宠生态论坛
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5

今日大家都在搜的词：

热文

3 天
7天

谷歌推新型生成式AI模型IGN 单步即可生成逼真图像

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI模型库哪个好？2025年主流AI模型选型指南与API成本对比推荐

荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI大模型费用计算器：新手如何避开工具选择的三大坑

AI大模型费用计算器：新手如何不再为选择工具而头疼

汪喵灵灵亮相亚宠论坛，AI大模型破解异宠医疗资源困局

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

抖音升级AI内容标识功能上线两项核心功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

小米汽车8月交付量超3万台全年交付量有望冲击42万

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

零跑汽车8月交付57066台增长超88%

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果上架翻新版Apple Pencil Pro售价849元

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

站长商机