ImageReward奖励模型：让文本到图像合成更符合人类偏好

2023-05-08 10:58 · 稿源：站长之家

站长之家（ChinaZ.com）5月8日消息:Stable Diffusion 等生成式 AI 模型在文本到图像合成方面越来越受欢迎。像 CLIP 或 BLIP 这样的文本图像评分方法可以评估模型生成的图像是否与文本提示匹配，但它们并不总是符合人类的偏好和感知。

清华大学和北京邮电大学的团队开发了第一个通用的文本到图像的人类偏好奖励模型——ImageReward，主要解决改进生成模型（如 Stable Diffusion）中的各种普遍问题，接受了人类反馈的训练，并使它们与人类价值观和偏好保持一致。

ImageReward 使用强化学习和人类反馈进行训练，这是一种受 OpenAI 的 CLIP 启发的方法。ImageReward 已经接受了137，000个人工评分的 AI 图像训练，有望提供更好的图像合成。ImageReward 在各种基准测试中优于 CLIP、Aesthetic 或 BLIP 等其他评分方法30% 到近40%。

ImageReward 从根据各种标准对 AI 图像进行排名的人类评分中学习

在实践中，ImageReward 实现了更好的文本和图像对齐，减少了身体的扭曲渲染，更好地匹配了人类的审美偏好，并减少了毒性和偏见。该团队在几个示例中展示了 ImageReward 如何影响图像质量，他们让不同的文本图像评分器从64代图像中选择表现最优的图像。

与 CLIP 等其他文本图像评分方法相比，ImageReward 在大多数情况下都能产生更好的结果。

该团队希望在未来与研究界合作，找到将 ImageReward 用作 RLHF 中文本到图像模型的真正奖励模型的方法。ImageReward 可从 GitHub 获得，并提供了有关如何将其集成到 Stable Diffusion WebUI 中的说明。

ImageReward项目网址:

https://github.com/THUDM/ImageReward

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Deci AI推出8.2亿参数的文本到图像潜在扩散模型DeciDiffusion 1.0

DeciAI最近推出了DeciDiffusion1.0，这是一项令人振奋的创新，旨在解决文本到图像生成领域的挑战。将文本描述转化为栩栩如生的图像一直是人工智能领域的难题，因为这涉及到自然语言理解和视觉内容创建之间的巨大差距。随着研究人员继续推动AI能够实现的界限，我们可以期待进一步的突破，使我们更接近一个世界，其中文本无缝地转化为引人入胜的图像，从在各个行业和领�

DeciDiffusion AI头条
AltDiffusion：提供多语言文本到图像的解决方案

AltDiffusion是一种创新的多语言文本到图像的扩散模型，旨在解决现有文本到图像模型仅支持有限语言的问题。它支持18种不同语言，通过多种巧妙的训练技巧，如知识蒸馏和与已经预训练的仅支持英语的模型的结合，以及概念对齐和质量提升等步骤，实现了多语言文本到图像的转化。这一研究为多语言人工智能领域的进一步研究和应用提供了有力支持。

AltDiffusion 扩散模型
革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具，它成功地将图像和视频输入转化为大型语言模型可识别的标记。项目地址:https://magvit.cs.cmu.edu/MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。MAGVIT-v2的发布，预示着视觉生成领域的一次重大突破。

视频合成
荐多模态大模型MMICL霸榜支持文本图像视频输入

北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入，在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化，MMICL有望成为多模态领域的新宠。

大模型
Getty Images 推出人工智能图像生成器

图片供应GettyImages最近宣布推出一款基于生成式AI的图像创建工具GettyImagesGenerativeAI。该工具能根据文本描述生成图像，用户可以获得标准的免版税许可。在人工智能可能对创作环境带来深远影响的今天，GettyImages在发展新技术和保护创作者权益之间找到平衡，其解决方案值得关注。
多模态大模型KOSMOS-2.5 擅长处理文本密集图像

随着视觉与语言的深度融合，文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5，它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力，将KOSMOS-2.5应用于更多实际场景，如文档处理、信息抽取等，从使语言模型真正具备「读图识文」的能力。

多模态
Kandinsky1：3.3亿参数强大模型，文本生成逼真图像

计算机视觉和生成建模领域取得了显著进展，推动了文本到图像生成的不断发展。各种生成架构，包括基于扩散的模型，在提高生成图像的质量和多样性方面发挥了关键作用。研究人员强调了解决内容问题的需求，建议采取实时监管或强大的分类器来减轻不良输出。

Kandinsky1 大模型
Wayve推出GAIA-1 9B，通过生成合成视频训练自动驾驶

英国初创公司Wayve在2023年6月发布了GAIA-1，这是一款为自动驾驶车辆培训数据设计的生成式模型。GAIA-1的最新版本，GAIA-19B，已经取得了令人瞩目的进展。这种基于文本的逻辑可以增加车辆的安全感，使人工智能的决策不再像一个“黑盒子”。

Wayve GAIA-19B 自动驾驶
吾爱大神超强AI智能语音合成工具Read Aloud 集成微软TTS语音合成技术

为大家介绍一款名为ReadAloud的Windows电脑版文字转语音工具，由吾爱大神制作。这款工具集成了微软的TTS语音合成技术，可以支持几十种语言进行语音合成转换，声音逼真度极高。这个工具对于那些不擅长说话或需要标准发音的人来说是一个福音，可以合成完美的语音来代替自己说话，特别适合懒人和外语学习者使用。

智能语音
Meta AI提出视频抠图新方法OmnimatteRF:结合动态2D前景图层和3D背景模型

Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景，因此只适用于背景为平面或仅有旋转运动的视频。它也可助力构建沉浸式的虚拟环境。

Meta

今日大家都在搜的词：

热文

3 天
7天

ImageReward奖励模型：让文本到图像合成更符合人类偏好

今日大家都在搜的词：

热文

站长商机