首页 > 业界 > 关键词  > ImageReward最新资讯  > 正文

ImageReward奖励模型:让文本到图像合成更符合人类偏好

2023-05-08 10:58 · 稿源:站长之家

站长之家(ChinaZ.com)5月8日 消息:Stable Diffusion 等生成式 AI 模型在文本到图像合成方面越来越受欢迎。像 CLIP 或 BLIP 这样的文本图像评分方法可以评估模型生成的图像是否与文本提示匹配,但它们并不总是符合人类的偏好和感知。

清华大学和北京邮电大学的团队开发了第一个通用的文本到图像的人类偏好奖励模型——ImageReward,主要解决改进生成模型(如 Stable Diffusion)中的各种普遍问题,接受了人类反馈的训练,并使它们与人类价值观和偏好保持一致。

ImageReward 使用强化学习和人类反馈进行训练,这是一种受 OpenAI 的 CLIP 启发的方法。ImageReward 已经接受了137,000个人工评分的 AI 图像训练,有望提供更好的图像合成。ImageReward 在各种基准测试中优于 CLIP、Aesthetic 或 BLIP 等其他评分方法30% 到近40%。

ImageReward 从根据各种标准对 AI 图像进行排名的人类评分中学习

在实践中,ImageReward 实现了更好的文本和图像对齐,减少了身体的扭曲渲染,更好地匹配了人类的审美偏好,并减少了毒性和偏见。该团队在几个示例中展示了 ImageReward 如何影响图像质量,他们让不同的文本图像评分器从64代图像中选择表现最优的图像。

image.png

与 CLIP 等其他文本图像评分方法相比,ImageReward 在大多数情况下都能产生更好的结果。

该团队希望在未来与研究界合作,找到将 ImageReward 用作 RLHF 中文本到图像模型的真正奖励模型的方法。ImageReward 可从 GitHub 获得,并提供了有关如何将其集成到 Stable Diffusion WebUI 中的说明。

ImageReward项目网址:

https://github.com/THUDM/ImageReward

举报

  • 相关推荐
  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 李想:理想VLA司机大模型 就是从动物进化到人类

    预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  • 周扬青回应只谈姐弟恋:可以符合自己的审美

    ​近日,艺人周扬青在直播中回应网友关于“只谈姐弟恋”的质疑,直言当前择偶标准与年龄及现实需求相关。她坦言,自己现年36岁,若不选择年龄较小的伴侣,“难道去谈‘老嘚’(指年龄差距过大者)吗?这显然不符合我的审美。”周扬青进一步解释

  • 或超过人类平均水平!AI 大模型将如何改造智能客服?

    本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出,传统智能客服存在"答非所问"问题,主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解,精准把握客户意图,实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级:1)精准理解应答;2)更自然的沟通方式;3)主动挖掘需求和销售转化;4)自动构建决策模型;5)实现营销服务一体化应用。高志成认为,随着AI技术发展,智能客服水平将超越人工客服平均水平,不仅能处理售前咨询,还能部分解决售后问题。企业需构建完善的知识库体系,将商品信息、活动信息等单独做成知识库,通过数据标注构建更立体的用户画像。最终,智能客服将向"售前+售后"全能型发展,承担更大责任。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 菲游客误将大鳄鱼看成塑料模型遭咬 试与其

    菲律宾一家动物园发生惊险事件,一名29岁男性游客误将4.6米长的鳄鱼当作塑料雕像,冒险翻越围栏试图自拍,结果遭猛烈攻击。鳄鱼死死咬住男子大腿并将其拖入水中翻滚,30分钟后饲养员冒险投掷水泥块才迫使鳄鱼松口。伤者全身缝合超50针,目前仍在医院治疗。专家提醒观赏猛兽必须保持安全距离,任何越过防护设施的行为都可能引发严重后果。动物园方面尚未正式回应,但工作人员强调园区已设置完善安全警示标识。

  • 模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据集

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。