首页 > 业界 > 关键词  > LLaMA2最新资讯  > 正文

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

2023-10-21 16:54 · 稿源:站长之家

要点:

1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。

2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。

3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。

站长之家(ChinaZ.com) 10月21日 消息:复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。

目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。

image.png

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。

这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。

举报

  • 相关推荐
  • Lamett乐迈石晶产品硬核测评:零醛、防水、防霉三大指标重新定义健康家

    北京楼市新政落地,市场活力提升,新房装修需求升温。文章重点指出选购健康安全建材的关键指标:甲醛释放量少、防水防潮性强、防霉防蛀能力过硬。通过高温甲醛实验、防水实验和防霉防蛀实验,对比测试了乐迈石晶板等主流建材,结果显示其具有零甲醛释放、滴水不侵、无惧虫霉的优异性能,重新定义了健康建材的标准。

  • Lamett乐迈石晶快装秘籍!让武汉20年老宅“一键焕新”

    武汉黄先生一家140平米老宅经《梦想改造家》节目改造后焕然一新。设计师采用零甲醛添加的Lamett乐迈石晶地板,解决潮湿问题,提升防滑耐磨性能。空间重构实现客卧对调、主卧休闲办公一体化,厨房岛台增进家人互动。全屋原木色调营造温馨氛围,兼顾健康与美学,为五口之家打造安全舒适的生活环境。

  • SOCAMM2,江波龙正式发布!

    2025年开放数据中心大会(ODCC)于9月9日至11日在北京举行,主题为“拥抱AI变革,点燃算网引擎”。大会聚焦数据中心、算力、存储等领域,汇聚行业专家与企业代表。江波龙在会上发布基于LPDDR5/5x的创新企业级内存产品SOCAMM2,应对AI工作负载挑战;同时介绍AI存储技术如何优化系统性能,提升效率。SOCAMM2具有高带宽、低功耗特点,适用于HPC、AI集群等场景,与HBM互补提升整体算力。此外,江波龙推出智能存储解决方案,通过机器学习优化数据管理,增强可靠性和寿命预测,全面支持AI应用发展。

  • 远东股份:ALL IN“电能+算力+AI”,智能驱动未来

    远东股份(600869)凭借“电能+算力+AI”战略,在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术,自主研发高导铝绞线提升输电效率,产品应用于多条国家级特高压线路。同时布局液冷技术研发,为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设,助力制造业智能化升级和绿色高效算能模式构建。

  • 中国品牌四登苹果发布会!SmallRig亮相发布会助力iPhone 17 pro系列影像功能

    SmallRig斯莫格于9月10日推出专为iPhone 17 Pro系列设计的专业拓展配件,与新品同步发售。该系列以全面化、模块化、专业化的拓展系统为核心,旨在释放iPhone影像潜能,提升手机影像创作体验。产品采用快拆式设计,支持快速切换组件,覆盖从日常拍摄到专业创作的多样化需求。该品牌曾多次亮相苹果全球发布会,产品获官方认可,在全球用户中具有较高认可度。

  • AI日报:腾讯开源图像模型HunyuanImage2.1;​爱诗科技获6000万美元融资;​Freepik上线豆包Seedream4.0图像模型

    本文汇总了AI领域的最新动态:腾讯升级混元生图模型至2.1版,支持2K分辨率与中英文输入;爱诗科技获阿里领投6000万美元融资,聚焦AI视频生成;Freepik上线Seedream 4.0图像模型,提供高分辨率生成选项;阿里千问新模型通过MoE架构提升推理效率10倍;微软在Office 365中集成Anthropic技术,调整AI供应商策略;首款AI Agent浏览器Fellou CE发布,简化工作流程;清华团队开源GUAVA技术,实现

  • 淘宝直播请call赵露思

    今年的暑假大戏,赵露思直播告一段落。 截至目前,距离她上次公开直播已经过去了十余天,她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中,赵露思首次表态,表示“现在很愿意做网红”,这一宣言并非偶然,就在前一天,她注销了拥有3119万粉丝的微博账号,彻底切断传统明星的流量锚点。

  • APOLLO年中展望:在滞胀的十字路口——下一步是什么?

    美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%,为近90年来最高水平,加剧市场不确定性。经济学家预测经济增长放缓、通胀上升,利率将长期维持高位。企业投资计划波动加剧,消费者信心下滑,预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%,但专家认为短期内不会出现全面衰退,供需双方均面临阻力。全球经济增长预期下调至2.6%,低于此前3%的预期。

  • 智驾终局:VLA与WA的“强脑”之争

    当理想i8在暴雨中的山区公路上自动识别出被冲垮的路肩,平稳减速并规划出绕行路线时;当小鹏P7Ultra仅凭视觉传感器就精准避让了横穿马路的流浪猫与突发变道的货车时,智能驾驶行业悄然迎来了一场技术革命的临界点。 新能源汽车的市场淘汰赛已进程过半,从电池续航、充电速度到座舱智能化,竞争之下市场早已进入红海,甚至智驾能力也正从争议不断的“加分项”转变�

  • 流放之路2新赛季上线,详细steam锁国区下载体验教程

    《流放之路2》第三赛季“第三法令”将于8月29日上线,带来全新剧情探索卡鲁伊部落家园恩加玛卡努伊群岛,支持八大岛屿任意顺序挑战。新增10多个新Boss和百余种新怪物,移除“残酷难度”,角色翻滚后可进入冲刺状态,适用所有职业。宝石系统改善,可无限同类叠加和多等级升级;新增职业且职业技能全面增强。2025年8月30日至9月2日开启国际服免费畅玩活动,进度可继承�

今日大家都在搜的词: