首页 > 业界 > 关键词  > ReMax最新资讯  > 正文

ReMax算法带来解决方案!RTX 4090限制下 提高大模型使用RLHF效率

2023-10-20 13:47 · 稿源:站长之家

要点:

  • ReMax算法的关键思想:ReMax是专门为RLHF任务设计的算法,与通用RL算法PPO不同。它利用三个特性,包括快速模拟、确定性转移和轨迹级奖励,来构建梯度估计器,从而显著减少计算开销。

  • 算法的优势:ReMax相对于PPO有很多优势,包括实现简易、少量超参数、节省约50%内存、提高训练速度。这使得ReMax在大型模型上的应用更加高效。

  • ReMax的性能:研究表明,在不同任务中,ReMax能够与PPO一样有效地最大化奖励,同时显著减少GPU内存使用,并提高训练速度。这对大型语言模型的发展具有重要意义。

站长之家(ChinaZ.com)10月20日 消息:在RTX4090被限制的时代下,一种名为ReMax的全新算法为大型模型在基于人类反馈的强化学习(RLHF)任务中带来了高效性的解决方案。这篇文章介绍了ReMax算法,它的作者是李子牛、许天、张雨舜、俞扬、孙若愚和罗智泉。ReMax算法的目标是降低计算成本,同时提高性能。

今年,大型语言模型(LLMs)如ChatGPT等在各个领域获得了广泛的应用,但这也引发了对计算资源,尤其是GPU的巨大需求。监督训练地调优一个Llama2-7B模型需要80GB以上的内存,而为了与人类对齐,LLMs还需要进行RLHF的训练,这导致GPU消耗是SFT的2倍以上,训练时间可能是SFT的6倍以上。

image.png

项目地址:https://github.com/liziniu/ReMax

论文链接:https://arxiv.org/abs/2310.10505

近日,美国政府对英伟达GPU产品H100、H800等在中国市场的限制措施使中国的大型语言模型和人工智能领域面临更大的挑战,因此减小RLHF的训练成本对LLMs的发展至关重要。

ReMax算法的动机在于解决RLHF的计算开销问题,尤其是第三阶段,即奖励最大化阶段。现有的RL算法PPO是通用的,但不够适用于RLHF任务,因为它使用了价值模型,该模型增加了存储需求,导致计算开销巨大。

ReMax的思路是设计一种专门为RLHF任务优化的算法,通过观察RLHF的特点,发现RLHF中不需要价值模型,因此将其移除,以降低计算成本。

ReMax算法基于古老的策略梯度算法REINFORCE,但通过使用贪婪生成的回答的奖励作为基准值,它有效地解决了REINFORCE算法中的高方差问题,提高了模型训练的效果。ReMax算法的优势在于其简洁性,核心部分仅需6行代码,相较于PPO,减少了超参数的数量和内存的使用。

通过实验,ReMax在不同任务中能够像PPO一样有效地最大化奖励,同时能够节省近50%的GPU内存,提高训练速度。

总而言之,ReMax算法为RLHF任务提供了一种高效的解决方案,通过减小计算开销,提高了大型语言模型的性能。它具有潜在的通用性,可以应用于其他自然语言处理任务,同时也有望应对硬件资源的限制。这一算法为大型模型的发展开辟了新的道路,有望在未来的研究和应用中发挥关键作用。

举报

  • 相关推荐
  • 最强Mate旗舰!华为Mate 80本月下旬亮相

    华为Mate 80系列会在11月25日前后发布,这将是史上最强Mate旗舰。 据悉,本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰,其中标准版代号Voyager,支持66W有线快充;Pro、Pro 及RS版统一采用Sagittarius代号,支持100W有线充电。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • 续航巨无霸!荣耀将率先量产10000mAh手机

    11月7日爆料称,荣耀将成为首家量产10000mAh电池手机和9000mAh性能旗舰的品牌。其首款10000mAh新机荣耀Power+2预计春节前亮相,搭载联发科天玑8500旗舰芯片和1.5K屏幕。此前荣耀Power系列已推出8000mAh青海湖电池,硅含量提升10%,能量密度达821Wh/L,极寒环境下续航出色。Power+2将突破万毫安时大关,有望改写智能手机续航标准,解决电量焦虑,让用户出门无需携带充电宝。

  • 五剑齐发!华为Mate 80系列还有散热风扇版:Mate史上第一次

    博主爆料华为Mate 80系列将推出五款机型,包括标准版、Pro版、RS版及首次搭载主动散热风扇的"风扇版"。该系列采用内置风扇主动散热方案,通过空气交换快速导出热量,相比传统VC均热板效率更高,能保障芯片持续高性能运行。新机预计11月正式发布,将成为华为史上阵容最强的Mate旗舰。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 华为Mate70 Air官宣今日开启预售

    华为Mate70 Air于11月6日正式发布,10:08开启预售。该机主打轻薄设计,机身厚度仅6.x毫米,为Mate系列最薄直板机。配备居中大圆镜头模组,后置四摄包括5000万主摄、800万超广角微距、1200万长焦防抖及150万光谱镜头,支持多种拍摄场景。屏幕采用7英寸临境大屏,分辨率2760*1320,支持AI+HDR显示。通信方面支持双向北斗消息、Wi-Fi7等功能,搭载麒麟9020系列处理器,提供流畅性能。拥有曜金黑、羽衣白、金丝银锦三款配色,保留实体SIM卡槽,预计将引发市场热潮。

  • 10000mAh手机来了!荣耀万级大电池试产

    据博主数码闲聊站爆料,荣耀第二块万级大电池试产了,额定36.88Wh-9755mAh。 典型值应该是9900mAh,大胆一点也能标10000mAh。 这将是全球第一款10000mAh电池量产智能机,引领行业进入10000mAh时代。

  • AI生万物,移往无前 | 第12届TMA大奖终审会成功举办

    11月1日,第12届TMA大奖终审会在云南玉溪成功举办。本届赛事聚焦移动营销与AI创新,新增数智营销、AI创新等赛道,细分短剧营销、节日/事件营销等类别。60余位行业专家评审入围案例,最终获奖结果将于12月19日盛典揭晓。活动搭建了行业交流平台,推动营销与AI技术融合发展。

今日大家都在搜的词: