DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐

2023-08-29 14:08 · 稿源：站长之家

文章概要:
1. ReST是一种新方法，通过成长式批量强化学习来调整大型语言模型与人类偏好保持一致。
2. ReST使用基于奖励模型的评分函数来过滤策略生成的样本，奖励模型通过学习人类偏好得到。
3. ReST内循环使用离线强化学习目标（如DPO）进行策略优化，外循环通过采样增长数据集。

站长之家（ChinaZ.com）8月29日消息:近年来，大型语言模型在生成流畅文本和解决各种语言任务上展现出惊人的能力。但是，这些模型并不总是与人类的偏好和价值观相一致，如果不加以适当指导，可能会生成有害或不合需求的内容。如果将语言模型与人类偏好对齐，既可以提高模型在下游任务上的表现，也可以改善模型的安全性。

为此，DeepMind的研究人员提出了一种称为Reinforced Self-Training（ReST）的新方法，旨在将语言模型与人类偏好对齐。ReST受成长式批量强化学习的启发，包含内外两个循环:内循环在给定数据集上改进策略，外循环通过从最新策略中采样来增长数据集。

具体来说，ReST使用基于奖励模型的评分函数来对策略生成的样本进行排名和过滤。奖励模型通过从各种源头（比如评分、排序、比较）收集人类偏好进行训练。评分函数还可以结合其他因素，比如样本的多样性或长度惩罚，以确保数据集的平衡。

ReST 可以在内部循环中使用不同的离线 RL 目标:ReST 是一种通用方法，可以在内部循环中使用任何离线 RL 目标，例如 DPO（直接偏好优化）、BCQ(批处理约束 Q 学习)或 CQL(保守 Q 学习)。研究人员在几项任务上比较了这些目标，发现DPO在大多数情况下表现最佳。

ReST是一种使用不断增长的批量RL使LLM与人类偏好保持一致的新方法。与现有的RLHF方法相比，ReST具有几个优势，例如计算效率，数据质量和奖励黑客的鲁棒性（(Robustness）)。

ReST可以提高LLM在各种任务上的性能和安全性。。ReST可以提升语言模型在诸如机器翻译、摘要生成或对话生成等任务上的性能和安全性。同时，ReST也很简单易实现，只需要能对模型进行采样和评分即可。

ReST简单易行。ReST 几乎没有需要调整的超参数，并且简单可靠。ReST 只需要能够从模型中采样并对其要实现的样本进行评分。

（举报）

相关推荐

关键词：

荐DeepSeek带飞寒武纪

寒武纪凭借AI芯片业务实现扭亏为盈，2024年首次实现上市后盈利，2025年Q1营收11.11亿元同比暴增4230%，净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达"，因美国对H20芯片出口管制获得市场红利，但客户集中度过高（前五大客户贡献94.63%营收）和现金流波动仍是隐忧。当前国产芯片迎来发展机遇，华为昇腾、壁仞等企业纷纷抢占市场，行业竞争日趋激烈。

DeepSeek红利寒武纪盈利 AI芯片市场
深度deepin 23.1正式发布！AI默认引擎切换至DeepSeek、修复超百项问题

快科技4月16日消息，今天，深度操作系统宣布，deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题，大幅提升新用户安装体验，同时集成多项功能优化与问题修复，进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等，具体重点改进如下：硬件兼容性与内核优化：集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新，全面提升硬件支持与底层性能；核心功能增强：DDE新增智能镜像源管理、紧凑模式入口，全局搜索支持离线自然语言与AI处理能力；?

深度操作系统 deepin 23.1
DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍，DeepSeek-Prover-V2-671B 其参数量达到6710亿，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多种计算精度，方便模型更快、更省资源地训练和部署。在模型架构上，该模型使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。同时支持超长上下文，最大位置嵌入达163840，使其能处理复杂的数学证明，并且采用了FP8量化，可通过量化技术减小模型大小，提

DeepSeek AI模型发布开源社区
荐DeepSeek红利耗尽后，元宝拿什么和豆包斗？

短短60天内，中国AI原生应用下载排行榜的位次排名，就三易其主。最新情况是，截至4月15日中午，中国区苹果应用商店免费APP下载排行榜上，豆包再次超越DeepSeek，位列第二，紧随其后的DeepSeek被挤到了第三的位置，腾讯元宝则滑落到了第七名。2月13日，作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝，一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包，首度登顶。但好景�

AI应用下载排行榜豆包
实锤了，Llama 4重测排名掉至32名！远不及DeepSeek和Qwen

LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名，从此前的第2名，直线掉到了第32名！这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名，远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max，甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

Meta Llama 4
荐AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

“昔者仓颉作书天雨粟，鬼夜哭”——人类掌握文字后，天地为之动容，因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》，距离人类掌握文字已经过去了千年。AI进化的答案，或许早就镌刻在人类文明的起点里。

大语言模型人工智能文字掌握
IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

人工智能IQ哪家强？o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

AI智商 ChatGPT Deepseek
超过ChatGPT、Deepseek？谷歌发布 Gemini 2.5 Flash AI 模型

新版AI模型缩短了响应时间，节约了运算成本；还推出了新的AI芯片“Ironwood”。谷歌发布了新的AI模型“Gemini2.5Flash”，据称，这款AI模型的性能比OpenAI和DeepSeek的AI产品“更高效”。谷歌计划在三星今年上半年推出的AI伴侣机器人Ballie上搭载生成式AI模型。

AI模型谷歌 Gemini
荐DeepSeek爆火100天，大厂又找回初心了

DeepSeek R1模型发布100天后，中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿，成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入，其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线，字节推出"深度思考"功能，阿里则专注开源模型研发。随着DeepSeek热潮减退，豆包重回下载量榜首，元宝跌出前20。科技大厂在享受DeepSee

DeepSeek AI模型中国AI
荐142页长文揭秘DeepSeek-R1「思维大脑」，开启全新「思维链学」研究

DeepSeek-R1是一款开创性的大型推理模型(LRM)，其研究揭示了AI推理能力的质变。该模型通过多阶段训练流程，将推理过程内嵌于模型本身，实现了从"提示驱动"到"内生推理"的模式转变。研究团队通过142页报告详细分析了R1的思维链，发现其推理过程具有高度结构化特征，包含问题定义、绽放周期、重构周期和最终决策四个阶段。模型展现出类人推理能力，能通过分

DeepSeek-R1 思维链学推理模型

热文

3 天
7天

DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐

荐DeepSeek带飞寒武纪

深度deepin 23.1正式发布！AI默认引擎切换至DeepSeek、修复超百项问题

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

荐DeepSeek红利耗尽后，元宝拿什么和豆包斗？

实锤了，Llama 4重测排名掉至32名！远不及DeepSeek和Qwen

荐AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

超过ChatGPT、Deepseek？谷歌发布 Gemini 2.5 Flash AI 模型

荐DeepSeek爆火100天，大厂又找回初心了

荐142页长文揭秘DeepSeek-R1「思维大脑」，开启全新「思维链学」研究

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

2025 年，SpaceX 发射了多少枚火箭？

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

苹果高管称：10 年后，可能 iPhone 将不复存在！

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头