ReMax算法带来解决方案！RTX 4090限制下提高大模型使用RLHF效率

2023-10-20 13:47 · 稿源：站长之家

要点:
ReMax算法的关键思想:ReMax是专门为RLHF任务设计的算法，与通用RL算法PPO不同。它利用三个特性，包括快速模拟、确定性转移和轨迹级奖励，来构建梯度估计器，从而显著减少计算开销。
算法的优势:ReMax相对于PPO有很多优势，包括实现简易、少量超参数、节省约50%内存、提高训练速度。这使得ReMax在大型模型上的应用更加高效。
ReMax的性能:研究表明，在不同任务中，ReMax能够与PPO一样有效地最大化奖励，同时显著减少GPU内存使用，并提高训练速度。这对大型语言模型的发展具有重要意义。

站长之家（ChinaZ.com）10月20日消息:在RTX4090被限制的时代下，一种名为ReMax的全新算法为大型模型在基于人类反馈的强化学习（RLHF）任务中带来了高效性的解决方案。这篇文章介绍了ReMax算法，它的作者是李子牛、许天、张雨舜、俞扬、孙若愚和罗智泉。ReMax算法的目标是降低计算成本，同时提高性能。

今年，大型语言模型（LLMs）如ChatGPT等在各个领域获得了广泛的应用，但这也引发了对计算资源，尤其是GPU的巨大需求。监督训练地调优一个Llama2-7B模型需要80GB以上的内存，而为了与人类对齐，LLMs还需要进行RLHF的训练，这导致GPU消耗是SFT的2倍以上，训练时间可能是SFT的6倍以上。

项目地址:https://github.com/liziniu/ReMax

论文链接:https://arxiv.org/abs/2310.10505

近日，美国政府对英伟达GPU产品H100、H800等在中国市场的限制措施使中国的大型语言模型和人工智能领域面临更大的挑战，因此减小RLHF的训练成本对LLMs的发展至关重要。

ReMax算法的动机在于解决RLHF的计算开销问题，尤其是第三阶段，即奖励最大化阶段。现有的RL算法PPO是通用的，但不够适用于RLHF任务，因为它使用了价值模型，该模型增加了存储需求，导致计算开销巨大。

ReMax的思路是设计一种专门为RLHF任务优化的算法，通过观察RLHF的特点，发现RLHF中不需要价值模型，因此将其移除，以降低计算成本。

ReMax算法基于古老的策略梯度算法REINFORCE，但通过使用贪婪生成的回答的奖励作为基准值，它有效地解决了REINFORCE算法中的高方差问题，提高了模型训练的效果。ReMax算法的优势在于其简洁性，核心部分仅需6行代码，相较于PPO，减少了超参数的数量和内存的使用。

通过实验，ReMax在不同任务中能够像PPO一样有效地最大化奖励，同时能够节省近50%的GPU内存，提高训练速度。

总而言之，ReMax算法为RLHF任务提供了一种高效的解决方案，通过减小计算开销，提高了大型语言模型的性能。它具有潜在的通用性，可以应用于其他自然语言处理任务，同时也有望应对硬件资源的限制。这一算法为大型模型的发展开辟了新的道路，有望在未来的研究和应用中发挥关键作用。

（举报）

相关推荐
大家在看

关键词：

ReMax

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
大模型推理显卡选购指南：4090显卡为何成为不二之选

在人工智能领域，尤其是在模型训练和推理阶段，显卡的性能至关重要。随着模型的规模越来越大，对算力的需求也会倍增。新用户还可以免费领取500元卡时计算资源。

人工智能显卡性能模型训练
性能比4090快近一倍！RTX 5080/90最快年底发：英伟达要提高显卡平均售价

英伟达似乎已经准备就绪，计划在今年第四季度推出下一代GeForceRTX5090和RTX5080。这一举措将有助于英伟达的板卡合作伙伴扩大出货量，尤其是随着越来越多的玩家向高端升级，这些GPU的推出还将有助于提高GPU的平均销售价格。RTX5090的价格可能超过2500美元，约合人民币1.8万。

英伟达 GeForce RTX
雷蛇灵刃Razer Blade 18笔记本上市：i9-14900HX RTX4090

雷蛇推出了2024款R灵刃azerBlade18笔记本，售价27999元起。新款笔记本配备了强大的i9-14900HX处理器，拥有24核心32线程，L3缓存为36MB，最高睿频可达5.8GHz，能够轻松应对各种高强度的计算和处理任务。除了标配的3个USB-A3.2Gen2接口、2个USB-C3.2Gen2接口、1个RJ45接口、1个HDMI2.1接口和1个SD卡读卡器外，用户还可以选择加钱选配雷电5接口，进一步提升了笔记本的扩展性和连接能力。

雷蛇 Razer Blade
腾讯云推出AIGC云存储解决方案专为AI大模型存储需求设计

腾讯云推出了全新的AIGC云存储解决方案，这一方案专为AI大模型在数据采集清洗、训练、推理以及数据治理等全过程中的存储需求设计，为AI领域的各类应用提供了坚实可靠的存储保障。AIGC，作为利用人工智能技术生成内容的工具，其应用范围已经拓展到文本、音频、图像、视频等多个领域，甚至实现了跨模态生成，展现出强大的内容创造力。值得一提的是，这一解决方案还充分借鉴并复用了腾讯企业网盘的一些卓越功能，如精细的权限划分、实时的在线编辑以及高效的协同办公等，使AI生成的内容能够得到更为便捷和高效的管理，从进一步提升工作效率。

人工智能云存储 AIGC
MAXHUB高效会议解决方案，为用户协作新需求而生

4月16日，MAXHUB2024新品发布会在视源股份北京产业园圆满举办，知名机构迪显咨询受邀出席，并现场进行《2024年会议场景生态发展趋势展望》主题分享。用户需求变化，驱动行业革新迪显咨询在主题演讲中提到，近几年，协作模式发生巨大转变，由原先会议室中的本地、远程会议，向多种多样的办公空间、会议场景及应用场景延伸。随着高效会议解决方案的广泛应用，用户将能够享受到划时代的高效体验会议行业也将迎来新的发展机遇。
荐李彦宏大模型“创业”400天

“过去这一年，我跟很多创业者、开发者交流，感觉大家都处在一种‘FOMO’状态，既兴奋、又害怕错过。”面对在生成式AI浪潮中正被彻底改变的开发者群体，4月16日对外演讲中，李彦宏率先谈起了他们所遭遇的选择迷茫问题。在文字、图片、语音、视频等多模态大模型的长期竞争中，留给李彦宏的新挑战之一便是，如何带领百度继续保持模型性能的领先优势。

李彦宏大模型
INDEMIND机器人导航解决方案，让开发更简单，让机器人更高效

随着机器人进入到越来越多的生产生活场景中，作业任务和环境变得更加复杂，机器人需要更精准、更稳定、更智能、更灵敏的自主导航能力。自主导航技术作为机器人技术的核心，虽然经过了多年发展，取得了长足进步，但在实践过程中，依然面临较多难题，如面对特殊障碍物难以避障、复杂场景精度降低稳定性下降、智能交互支持不足等问题，且地图构建大多仍为传统的2D栅格地图、拓扑地图，缺乏机器人用于理解环境、人机交互等业务的高层次语义信息。结合INDEMIND提供成熟的硬件参考设计和量产设计服务及相对成熟的作业单元技术，整机从立项到量产最快可以控制到2个月以内，大大降低企业的研发周期和投入成本。

自主导航技术智能机器人高层次语义信息
MAXHUB广州新品品鉴会落幕，会议解决方案赋能企业高效协作

4月16日，MAXHUB2024新品发布会在视源股份北京产业园圆满举行。自发布会以来，MAXHUB陆续在北京、深圳等多个城市召开新品品鉴会。以“激发高效力量，成就高效组织”为品牌使命，MAXHUB高效会议解决方案及显示交互系统、视频会议系统新品，让组织数字化高效协作覆盖告别传统思维，新办公时代的大协同时代将就此开启。
荐开源大模型Llama 3王者归来！最大底牌4000亿参数，性能直逼GPT-4

扎克伯格:「有了Llama3，全世界就能拥有最智能的AI。」ChatGPT拉开了大模型竞赛的序幕，Meta似乎要后来居上了。也许只有OpenAI的GPT-5才能压下开源模型了。

GPT-4 Llama3 AI
以假乱真，天工音乐大模型带来颠覆式AI体验

昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达SOTA的音乐大模型产品。邀测开始后，广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家有大量测试申请被源源不断地发至后台。昆仑万维已打造了集AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力于一体的「天工3.0」多模态“超级模型”，成为AI行业全新里程碑。

AI音乐生成天工SkyMusic 邀测活动

今日大家都在搜的词：

热文

3 天
7天

ReMax算法带来解决方案！RTX 4090限制下 提高大模型使用RLHF效率

今日大家都在搜的词：

热文

站长商机

ReMax算法带来解决方案！RTX 4090限制下提高大模型使用RLHF效率