首页 > AI头条  > 正文

逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

2025-05-14 10:44 · 来源: AIbase基地

家人们,今天必须给你们唠唠科研界的一项超酷新成果 ——Flow-GRPO!这东西可不得了,它就像是给图像生成模型打了一针 “超级进化剂”,直接让它们从 “青铜” 一路飙升到 “王者”。想知道它是怎么做到的吗?快搬好小板凳,听我细细道来!

图像生成模型的 “成长烦恼”

现在的图像生成模型,比如基于流匹配(Flow matching)的那些,理论基础那叫一个扎实,生成的高质量图像也让人眼前一亮。但它们也有自己的 “小烦恼”,遇到复杂场景,像要安排好多物体、处理各种属性和关系,或者是在图像里准确渲染文本的时候,就有点 “抓瞎” 了。

image.png

论文地址:https://www.arxiv.org/pdf/2505.05470

项目地址:https://github.com/yifan123/flow_grpo

而在线强化学习(online RL)在提升大语言模型推理能力方面,那效果是杠杠的。可之前大家主要把 RL 用在早期的扩散生成模型,还有像直接偏好优化这类离线 RL 技术上,却很少有人探索在线 RL 能不能给流匹配生成模型带来新突破。这就好比明明有一把很厉害的钥匙,却没人想到去开这扇门。现在,Flow-GRPO 就来 “撬门” 啦!

用 RL 训练流模型,那挑战可不小。首先,流模型的生成过程就像一条设定好的轨道,基于确定性的常微分方程(ODE),一路按部就班,在推理的时候没法随机采样。但 RL 呢,就像一个好奇宝宝,得靠随机尝试不同的行动,再根据反馈来学习。这俩的 “脾气” 完全不一样,一个要规规矩矩,一个要到处探索,怎么能凑到一块呢?

其次,在线 RL 训练得高效采样收集数据才行,可流模型生成每个样本都要折腾好多迭代步骤,就像蜗牛爬一样慢,采样效率低得可怜。模型越高级、越复杂,这个问题就越严重,简直是 “雪上加霜”。所以,要想让 RL 在图像或视频生成这些任务里发挥作用,提高采样效率就成了关键中的关键。

image.png

Flow-GRPO 来 “救场” 啦!

为了解决这些难题,Flow-GRPO 闪亮登场!它就像一个超级 “魔法工具箱”,里面装着两个神奇的 “魔法” 策略。

第一个魔法是 “ODE 到 SDE 转换”。这就好比把一辆只能在固定轨道上行驶的火车,改装成了能在各种道路上自由穿梭的汽车。Flow-GRPO 把原本确定性的常微分方程,转变成了随机微分方程(SDE),而且还能保证在每个时间步都和原来模型的边际分布一样。这样一来,就给模型引入了随机性,让它能像 RL 需要的那样去探索不同的可能性。想象一下,以前模型生成图像就像在一条直直的路上走,现在有了这个转换,它就能在各种不同的小路上探索,找到更合适的生成方式,是不是很神奇?

第二个魔法是 “降噪减少策略”。训练的时候,Flow-GRPO 就像一个聪明的 “时间管理大师”,它减少了降噪步骤,这样就能快速收集训练数据。但在推理的时候,它又会恢复到原来完整的降噪步骤,保证生成高质量的样本。这就好比跑步,训练的时候为了快速适应环境,就先小步快跑;比赛的时候,再按照正常的节奏大步跑,既能保证速度,又能保证质量。

image.png

Flow-GRPO 实战表现如何?

Flow-GRPO 到底有多厉害?研究人员用它在各种文本到图像(T2I)的任务上做了测试,结果简直惊艳!

在组合图像生成任务上,用 GenEval 基准测试来评估。这任务可不简单,得精确安排物体、控制属性,就像搭乐高一样,每个零件都要放对地方。Flow-GRPO 让 Stable Diffusion3.5Medium(SD3.5-M)模型的准确率从63% 一路飙升到95%,直接把 GPT-4o 模型都给比下去了!以前模型生成的图像,可能物体数量不对,颜色、位置也乱七八糟,现在有了 Flow-GRPO,这些问题都迎刃而解,生成的图像就像被施了魔法一样精准。

视觉文本渲染任务中,SD3.5-M 模型在 Flow-GRPO 的加持下,准确率从59% 提高到了92%。以前模型可能会把文本渲染得歪歪扭扭、缺胳膊少腿,现在却能准确无误地把文本呈现在图像里,就像给图像配上了最完美的文字说明,效果提升不是一星半点。

在与人类偏好对齐的任务里,Flow-GRPO 同样表现出色。用 PickScore 作为奖励模型来评估,它能让模型生成的图像更符合人类的喜好。而且,在提升能力的同时,几乎没有出现奖励作弊的情况。啥是奖励作弊呢?就是有些模型为了提高奖励分数,牺牲了图像质量和多样性,生成的图片要么模糊不清,要么千篇一律。但 Flow-GRPO 不一样,它就像是个 “正义使者”,保证图像质量和多样性的同时,还能让奖励分数蹭蹭往上涨。

研究人员还对 Flow-GRPO 进行了各种分析。比如说,在处理奖励作弊问题上,他们尝试了好多方法。一开始把各种奖励模型组合在一起,结果发现图像出现了局部模糊、多样性降低的问题,就像给美丽的风景图蒙上了一层雾,啥都看不清。后来用 KL 约束这个方法,效果就好多啦。调整好 KL 系数后,既能优化任务特定的奖励,又不会损害模型的整体性能,就像给模型找到了一个完美的 “平衡点”。

还有降噪减少策略的效果分析。减少训练时的数据收集时间步长,从40步减少到10步,结果发现训练速度提高了4倍多,而且最终的奖励分数一点也没受影响。就好比开车,以前要慢悠悠地开好久才能到目的地,现在换了条更顺畅的路,一下子就到了,还不耽误事儿!

噪声水平对模型也有影响。SDE 里的噪声水平如果设置得合适,就能提高图像的多样性和探索能力,对 RL 训练特别有帮助。但要是噪声太大,图像质量就会下降,就像往一幅精美的画上随意泼墨,好好的画就毁了。研究发现,把噪声水平设置在0.7左右的时候效果最佳,能在保证图像质量的同时,让模型更好地探索各种可能性。

Flow-GRPO 的泛化能力也很强。在一些没见过的场景测试中,它能准确捕捉物体的数量、颜色和空间关系,就算是没训练过的物体类别,它也能应对自如。从训练生成2-4个物体,到测试时生成5-6个物体,它都能轻松搞定,就像一个学习能力超强的学生,举一反三,啥题都会做!

未来展望与挑战

虽然 Flow-GRPO 在文本到图像的任务里表现得非常出色,但研究人员并没有满足于此。他们已经把目光投向了更广阔的领域 —— 视频生成。不过,这也带来了一些新的挑战。

首先是奖励设计。在视频生成里,简单的奖励模型可不够用了,得想出更复杂、更有效的奖励模型,才能让生成的视频既真实又流畅。这就好比给电影打分,不能只看画面好不好看,还要考虑剧情、音效等好多方面。

其次是平衡多个奖励。视频生成要优化好多目标,像真实性、流畅性、连贯性等等,这些目标有时候就像几个调皮的小孩,各有各的想法,很难平衡。研究人员得想办法让它们 “和谐共处”,这可不容易。

最后是可扩展性。视频生成比图像生成更费资源,就像吃得多的 “大胃王”。要把 Flow-GRPO 应用到视频生成中,就得找到更高效的数据收集和训练方法,不然 “资源小水管” 可满足不了它的 “大胃口”。

但这些挑战并不能阻挡 Flow-GRPO 前进的脚步。相信在研究人员的努力下,未来 Flow-GRPO 不仅能在图像生成领域继续发光发热,还能在视频生成等更多领域创造奇迹,给我们带来更多的惊喜!说不定以后我们看的电影、玩的游戏里的画面,都是 Flow-GRPO 帮忙生成的呢!让我们一起拭目以待吧!

  • 相关推荐
  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频”

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • 吴柳芳披露直播跳舞原因:我要 我该转型了

    吴柳芳的直播生涯中,一次与奥运冠军管晨辰的“互怼”事件意外成为转折点,让她一夜之间粉丝量激增,最高峰时突破600万大关。然而,好景不长,因种种原因,她的粉丝数量又迅速回落至初始水平。对于这段经历,吴柳芳表现得颇为淡然:“当粉丝数回到最初时,我反而感到了一种解脱,仿佛回到了最真实的自己,没有了外界的喧嚣与压力,生活变得更加轻松。”

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 从疲惫到焕活!燕荚用户亲述 Brillowel 辅酶 Q10 真实反馈

    文章介绍了Brillowel辅酶Q10在燕窝平台上的热销情况。多位用户反馈显示,该产品能显著提升精力、改善疲劳状态,尾号7141的顾客表示服用后每天精神饱满;尾号7386的顾客则发现皮肤和头发状态明显改善。燕窝平台以严格的选品标准确保产品质量,提供便捷的购物体验和专业的客服支持。文章强调Brillowel辅酶Q10通过内外滋养帮助消费者获得健康,建议读者通过燕窝平台选购该产

  • 这个夏天,肌肤也要「深呼吸」!Vida Glow白月光胶囊,内服净透肌养成术

    文章探讨了夏季阳光对皮肤的伤害机制及科学美白方案。紫外线、环境污染和蓝光会刺激黑色素生成,导致肤色暗沉。传统美白产品仅作用于角质层,难以从源头解决问题。Vida Glow白月光胶囊采用"精准狙击+全面防护"策略:通过纳米级谷胱甘肽抑制酪氨酸酶活性,阻断黑色素生成链;同时添加植物精华和抗氧化成分,构建皮肤防御屏障。其核心技术NANO-BRIGHT™纳米载体使吸收率提升至90%,能转化黑色素为浅色类型,实现由内而外的透亮光彩。研究显示,该配方可帮助皮肤抵御87%污染物伤害,降低35%氧化应激。真正的美白需要3-6个月的细胞更新周期,从源头调节黑色素代谢,而非表面修饰。现代美白理念追求由内焕发的自然光泽,体现健康肌肤的本质光彩。

  • 600万粉丝被一夜清空!吴柳芳首次披露直播跳舞原因:我要

    歌手吴青峰首次担任网络直播主,分享自己的来路与网络争议。他提到面对病痛的艰难时光,强调工作选择要正确,因当时资源真的很低。尽管想继续帮助父母,但若有一天他们不在了,他能否还对他们好?最近一颗改变的种子在他心中生根发芽,所以他决定转型做网络主播报导。吴青峰表示直视简单,除了学习跳舞和直播话语术外,想要红还要有运气。正与欧文管晨晛互动,让女孩一夜爆红最高突破600万,但最终因种种问题被一晚清零。在我粉坠降到原本样子的时候,我反而回到了最初的自己,轻松了许多。

今日大家都在搜的词: