首页 > 业界 > 关键词  > ReMax最新资讯  > 正文

ReMax算法带来解决方案!RTX 4090限制下 提高大模型使用RLHF效率

2023-10-20 13:47 · 稿源:站长之家

要点:

  • ReMax算法的关键思想:ReMax是专门为RLHF任务设计的算法,与通用RL算法PPO不同。它利用三个特性,包括快速模拟、确定性转移和轨迹级奖励,来构建梯度估计器,从而显著减少计算开销。

  • 算法的优势:ReMax相对于PPO有很多优势,包括实现简易、少量超参数、节省约50%内存、提高训练速度。这使得ReMax在大型模型上的应用更加高效。

  • ReMax的性能:研究表明,在不同任务中,ReMax能够与PPO一样有效地最大化奖励,同时显著减少GPU内存使用,并提高训练速度。这对大型语言模型的发展具有重要意义。

站长之家(ChinaZ.com)10月20日 消息:在RTX4090被限制的时代下,一种名为ReMax的全新算法为大型模型在基于人类反馈的强化学习(RLHF)任务中带来了高效性的解决方案。这篇文章介绍了ReMax算法,它的作者是李子牛、许天、张雨舜、俞扬、孙若愚和罗智泉。ReMax算法的目标是降低计算成本,同时提高性能。

今年,大型语言模型(LLMs)如ChatGPT等在各个领域获得了广泛的应用,但这也引发了对计算资源,尤其是GPU的巨大需求。监督训练地调优一个Llama2-7B模型需要80GB以上的内存,而为了与人类对齐,LLMs还需要进行RLHF的训练,这导致GPU消耗是SFT的2倍以上,训练时间可能是SFT的6倍以上。

image.png

项目地址:https://github.com/liziniu/ReMax

论文链接:https://arxiv.org/abs/2310.10505

近日,美国政府对英伟达GPU产品H100、H800等在中国市场的限制措施使中国的大型语言模型和人工智能领域面临更大的挑战,因此减小RLHF的训练成本对LLMs的发展至关重要。

ReMax算法的动机在于解决RLHF的计算开销问题,尤其是第三阶段,即奖励最大化阶段。现有的RL算法PPO是通用的,但不够适用于RLHF任务,因为它使用了价值模型,该模型增加了存储需求,导致计算开销巨大。

ReMax的思路是设计一种专门为RLHF任务优化的算法,通过观察RLHF的特点,发现RLHF中不需要价值模型,因此将其移除,以降低计算成本。

ReMax算法基于古老的策略梯度算法REINFORCE,但通过使用贪婪生成的回答的奖励作为基准值,它有效地解决了REINFORCE算法中的高方差问题,提高了模型训练的效果。ReMax算法的优势在于其简洁性,核心部分仅需6行代码,相较于PPO,减少了超参数的数量和内存的使用。

通过实验,ReMax在不同任务中能够像PPO一样有效地最大化奖励,同时能够节省近50%的GPU内存,提高训练速度。

总而言之,ReMax算法为RLHF任务提供了一种高效的解决方案,通过减小计算开销,提高了大型语言模型的性能。它具有潜在的通用性,可以应用于其他自然语言处理任务,同时也有望应对硬件资源的限制。这一算法为大型模型的发展开辟了新的道路,有望在未来的研究和应用中发挥关键作用。

举报

  • 相关推荐
  • 极客玩家终极梦想!掠夺者·圣盾7000携RTX 5090D焕新登场

    掠夺者·圣盾7000旗舰电竞主机正式上市,搭载全新英伟达RTX5090D显卡和英特尔酷睿Ultra9处理器,性能突破性提升。配备24核24线程CPU,最高睿频5.6GHz,搭配32GB GDDR7显存,AI算力达4000TOPS。采用自研X360散热系统,支持4K超高清游戏体验。提供DDR5 6000MHz高频内存和192GB扩展空间,满足多任务需求。即日起登陆京东旗舰店,享最高2000元补贴优惠。这款主机兼具电竞与生产力双重优势,为

  • RTX5090的游戏本长啥样?掠夺者电竞家族2025王者启航!

    掠夺者推出2025年度三款旗舰电竞本新品:战斧18 AI、擎Neo和擎Neo S。战斧18 AI搭载RTX 5090/5080显卡和酷睿Ultra 9 275HX处理器,24核24线程,配备18英寸4K/120Hz双模Mini LED屏;擎Neo定位高端性能猛兽,搭载RTX 5070Ti显卡;擎Neo S主打轻薄旗舰,19.9mm机身内置RTX 5070Ti显卡和16英寸2.5K 240Hz OLED屏。全系采用第五代3D刀锋速冷金属风扇和液态金属导热技术,支持最高192GB内存扩展。新品现已开启预约,带来极致游戏体验和AI计算性能。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 碳企通CBAM解决方案:三步破解碳关税困局

    本文介绍了应对欧盟碳关税(CBAM)的三步解决方案:1)智能诊断:通过自主研发的计算引擎精准预测2024-2026年碳关税支出,误差率<5%,并定位生产环节碳排热点;2)快速认证:建立欧盟合规认证快速通道,认证周期缩短至7个工作日,通过区块链确保数据不可篡改;3)持续优化:动态监测32国碳政策变化,建立碳成本分摊模型。案例显示某钢铁企业通过该方案降低碳强度19%,年节省碳关税82万欧元。方案优势包括欧盟双认证资质、全流程闭环服务和可控成本(申报费用比自建团队低65%)。

  • 难哭了的高考数学题,4家国产大模型表现如何?

    2025年高考数学考试引发热议,多家AI大模型参与测试。腾讯元宝和豆包表现最优,分别获得145分和140分(满分150分),仅错1-2道题。文心一言和QWen3稍逊,得分在120分左右。测试显示,AI在选择题和基础解答题表现良好,但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出,国产大模型数学能力已有显著提升�

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 微算法科技(NASDAQ:MLGO)利用Raft+PBFT的混合共识网络算法,提高区块链网络的性能和可靠性

    区块链网络的性能和可靠性是制约其大规模应用的两大难题。共识算法是实现数据一致性和网络同步的关键机制,常见算法包括PoW(工作量证明)、PoS(权益证明)和DPoS(委托权益证明)等,但都存在局限性。微算科技(NASDAQ:MLGO)采用Raft+PBFT混合共识算法,结合Raft的高效同步和PBFT的强一致性优势,通过智能切换机制和自适应参数调整,在保证安全性的同时大幅提升处理能力和可扩展性。该系统能快速处理交易请求,有效防止双花攻击,在网络条件变化时仍能保持稳定运行,为区块链商业应用提供了更优解决方案。

  • 腾讯与高通骁龙X系列合作:打造面向PC端的游戏安全解决方案

    腾讯游戏安全中心5月16日宣布,在2025游戏安全行业峰会上,腾讯与高通达成战略合作。双方将在骁龙X系列上深化合作,打造面向PC端的高性能游戏安全解决方案。腾讯游戏安全ACE是其自主研发的拥有20年反作弊经验的产品,覆盖游戏加固、反外挂、内容审核等全生命周期安全能力。此次合作将把腾讯20年游戏安全技术部署于高通专为AI+PC设计的骁龙X系列,为《无畏契约》等重点PC游戏提供支持。峰会由广东省游戏产业协会指导,腾讯游戏安全ACE、腾讯云等主办。