首页 > 业界 > 关键词  > Parrot最新资讯  > 正文

Parrot提出新型多重奖励强化学习框架以改进文本生成图像

2024-01-15 17:41 · 稿源:站长之家

**划重点:**

- 🔄 **多奖励优化:** Parrot是一种用于文本生成图像的多重奖励强化学习(RL)框架,采用联合优化方法,有效解决了奖励过度优化和降级问题。

- 📊 **质量度量改进:** 与使用单一奖励模型相比,Parrot框架在美学、图像情感和人类喜好等多个质量指标上取得了显著改进。

- 🌐 **伦理关切:** 尽管Parrot在提高图像质量方面取得了成功,但其对现有度量的依赖存在一定限制,并引发了对其潜在生成不当内容的伦理关切。

站长之家(ChinaZ.com)1月15日 消息:在使用强化学习(RL)进行文本生成图像(T2I)时,质量奖励成为一个紧迫问题。尽管观察到通过强化学习RL可能提高图像质量,但多个奖励的聚合可能导致在某些度量中过度优化而在其他度量中降级。手动确定最佳权重变得困难,因此需要一种在RL中联合优化多个奖励的有效策略。

已提出各种T2I生成模型,如使用LLMs的稳定扩散模型,利用潜在文本表示。在评估生成的图像质量时,考虑了多个质量度量,包括美学、人类偏好、图像文本对齐和图像情感。RL微调通过将去噪视为多步决策任务,在人类偏好学习方面表现出优越性。其中一个例子是Promptist,它使用对齐和美学分数作为奖励,对提示扩展模型进行微调。然而,它在联合微调T2I模型方面表现不足,限制了其适应图像生成任务的能力。

image.png

谷歌DeepMind和OpenAI的研究人员与Rutgers University和Korea University合作提出了Parrot,这是一种新颖的T2I生成的多重奖励RL框架,采用联合优化方法,用于T2I模型和提示扩展网络,以增强生成质量感知的文本提示。该方法在推断时引入了原始的以提示为中心的指导,以抵消对原始提示的潜在遗忘。

Parrot使用奖励特定标识符引入偏好信息,自动确定每个奖励目标的重要性。在Promptist数据集上进行了提示扩展网络的监督微调,用于RL训练。基于稳定扩散1.5的JAX版本的T2I模型使用LAION-5B数据集进行预训练。使用策略梯度算法实现对RL T2I扩散模型的微调,将去噪过程视为马尔可夫决策过程。

与使用单一奖励模型相比,该框架还改善了多个质量指标,如美学、图像情感和人类喜好。其原始的以提示为中心的引导有效解决了通过添加上下文而压倒主要内容的问题,从而生成了忠实于原始提示并包含视觉上令人愉悦的细节的图像。

尽管Parrot在有效性上表现出色,但对现有度量的依赖存在限制,强调了对进展的需求。Parrot对更广泛奖励的适应性提高了其在量化图像质量方面的适用性。但在Parrot潜在生成不当内容的能力方面引发了伦理关切,强调了在部署中进行审查和伦理考虑的必要性。

论文网址:https://arxiv.org/abs/2401.05675

举报

  • 相关推荐
  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 文远知行斩获美国以外首张城市级L4 Robotaxi商运牌照,中东规模化布局提速

    11月10日,文远知行获阿联酋政府批准,取得全球首张城市级L4自动驾驶商业化运营牌照,可在阿布扎比开展无安全员的Robotaxi服务。这标志着其在中东实现纯无人运营落地。服务将通过Uber等平台上线,计划2026年车队扩至千台,2030年达数万台。凭借近百万公里数据与政府支持,公司将在阿布扎比实现单车盈亏平衡,并以此为起点推动全球智慧交通发展。

  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • 华为Mate 80 Pro Max外观公布:采用双圆环设计

    华为宣布将于11月25日举行Mate80系列、Mate X7及全场景新品发布会,主题为“实力破圈,开启新篇”。官方预热视频首次展示Mate80 Pro+Max真机外观,后置摄像头延续圆形对称设计,新增“双环”ID,疑似磁吸充电模块,为系列首创。该系列将提供四款机型,首发麒麟9030处理器,预装鸿蒙OS6系统,性能与流畅度大幅提升,引发广泛关注。

  • PayInOne携智能AI招聘产品Foundire亮相进博会,创新科技步履不停

    第八届中国国际进口博览会于2025年11月5日至10日在上海成功举办。全球招聘与薪酬管理平台PayInOne在服务贸易展区亮相,重点展示其AI驱动的智能招聘平台Foundire,该平台通过人才画像匹配、自动化筛选及智能评估体系,显著提升跨境招聘效率与精准度。CEO林坦在专题演讲中强调AI技术正推动用工模式变革,助力企业实现全球化高效合规管理。展会期间,PayInOne联合多家生态伙伴举办多场活动,探讨企业出海机遇,并与政府、企业界嘉宾深入交流,巩固了其在全球人力资源服务领域的行业领导地位。

  • 小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

    小鹏汽车在2025科技日宣布,将于2026年推出三款全栈自研L4级Robotaxi,同步开启试运营。该车型搭载4颗图灵AI芯片,算力达3000TOPS,配备第二代VLA模型,具备强大泛化学习能力,能自适应全球不同交通习惯。作为中国首款全栈自研Robotaxi,无需额外改装,不依赖高精地图即可实现量产。车辆提供两套智驾方案,分别侧重通勤效率与极致安全,并在六大关键系统采用双冗余设计,确保行驶安全。小鹏还将开放Robotaxi SDK,与高德地图等伙伴共建全球服务生态。

  • 华为Mate 80标准版首次支持3D人脸识别:看齐Pro

    博主数码闲聊站爆料,华为Mate 80全系支持3D人脸识别,包括标准版,这在Mate系列史上还是第一次。 已知Mate 70 Pro系列支持3D人脸识别,其正面采用三挖孔形态,预计Mate 80系列正面也将是三挖孔设计,而且该机还将支持侧边指纹识别。 据悉,全新的华为Mate 80系列共有4款机型,分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。 其中Mate 80和Mate 80 Pro屏幕尺寸是6.75英寸,M

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 百度发布小度AI眼镜Pro:集成四大核心AI能力 售价2299元

    11月13日,2025百度世界大会在京开幕。百度集团副总裁、小度科技CEO李莹发布全新智能穿戴设备——小度AI眼镜Pro,售价2299元,已在电商平台开售。产品集成四大AI核心能力:AI识物可快速识别物体信息;AI翻译支持36种语言实时互译,针对医疗、金融领域优化术语库;AI备忘通过语音即时记录信息;AI会议纪要能自动提炼要点并生成待办清单。设备主打轻便舒适,整机重39克,提供两种时尚款式,支持定制镜片,具备IP54防护等级。硬件搭载第一代骁龙AR1平台,配备2GB+32GB存储,采用索尼1200万像素镜头,支持4K拍照与1440p视频录制。内置173mAh电池,配合智能眼镜盒可实现68小时综合续航。

今日大家都在搜的词: