复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

2023-10-21 16:54 · 稿源：站长之家

要点:
1. 复旦大学和上海人工智能实验室的研究团队发现，通过微调RoPE位置编码中的旋转角底数（base）这一超参数，可以显著提升大型模型的上下文长度，实现外推能力的稳定提升。
2. 他们提出了一套RoPE外推的缩放法则，可以根据预训练和续训文本长度来预测大模型的支持的上下文长度，并调整旋转角底数以提升外推表现。
3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度，增强外推能力，为自然语言处理等领域的应用提供更多潜力。

站长之家(ChinaZ.com) 10月21日消息:复旦大学和上海人工智能实验室的研究团队在一项新研究中，揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数，显著扩展大型模型的上下文长度，从1.6万tokens延长至100万tokens，同时提升外推能力。这个超参数被称为旋转角底数（base），在RoPE位置编码中起着关键作用。

目前，大型模型如Claude2和GPT-4在支持上下文长度方面存在限制，不超过10万和3.2万tokens，一旦超出这些限制，模型会表现出困难和混乱。这项研究的发现有望解决这一问题，提供更大的上下文窗口长度以应对更复杂的任务。

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

研究的核心在于RoPE位置编码，它是Transformer架构的一部分，用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果，但与相对位置编码相比，它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力，包括代表研究如ALiBi、xPos、BCA等，以及MIT提出的StreamingLLM，可以实现无限的输入长度;二是调整旋转角，代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法，通过微调旋转角底数，成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”，使大型模型的外推表现更出色。然而，现有的研究仅在特定的旋转角底数和续训长度上进行微调，缺乏通用规律，以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律，复旦大学和上海AI研究院的研究人员进行了实验，他们分析了影响RoPE外推能力的各种参数，提出了“临界维度”（Critical Dimension）的概念，并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律，可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度，然后相应地微调旋转角底数，以提升外推表现。

这项研究的实验结果显示，根据这一规律，大型模型能够在输入长度为10万、50万甚至100万tokens的情况下，实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说，这项研究为大型模型提供了一种通用的方法，通过微调RoPE位置编码的超参数，轻松扩展上下文窗口长度，增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能，并提供更多应用潜力。

（举报）

相关推荐

关键词：

LLaMA2

最强Mate旗舰！华为Mate 80本月下旬亮相

华为Mate 80系列会在11月25日前后发布，这将是史上最强Mate旗舰。据悉，本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰，其中标准版代号Voyager，支持66W有线快充；Pro、Pro 及RS版统一采用Sagittarius代号，支持100W有线充电。

华为Mate 80 麒麟9030芯片
科普 | 读懂HBM和DRAM，才懂AI算力未来

在AI算力需求激增的背景下，存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术：SRAM凭借高速读写特性在CPU缓存中不可替代；DRAM作为数字世界的“主内存”，在容量与速度间实现平衡；HBM则通过3D堆叠架构革命性提升带宽，突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长，预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破，并开始布局HBM技术，正通过持续技术积累提升在全球半导体生态中的地位。

存储芯片 DRAM HBM
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
AI生万物，移往无前 | 第12届TMA大奖终审会成功举办

11月1日，第12届TMA大奖终审会在云南玉溪成功举办。本届赛事聚焦移动营销与AI创新，新增数智营销、AI创新等赛道，细分短剧营销、节日/事件营销等类别。60余位行业专家评审入围案例，最终获奖结果将于12月19日盛典揭晓。活动搭建了行业交流平台，推动营销与AI技术融合发展。

TMA大奖 AI 移动营销
猛玛LARK MAX 2荣登《财富》中国最佳设计榜：定义无线麦克风新标杆

猛玛无线监听麦克风LARK MAX2凭借颠覆性创新入选《财富》中国最佳设计榜。产品通过2.4G自适应跳频技术实现25毫秒无感延迟和百米稳定监听，彻底解决传统有线设备对创作自由的束缚。其14克超轻机身配合"无Logo反戴"设计，在专业场景中兼顾收音效果与画面美感。该产品经权威声学测试，在音频保真度、信噪比等核心指标均达专业录音级水准，彰显了猛玛在声学技术研发的深厚实力。

无线监听麦克风工业设计用户体验
全球首款2nm手机芯片来了！三星Galaxy S26首发明年2月见

快科技11月3日消息，据媒体报道，三星将于2月25日在旧金山举行Galaxy Unpacked活动，正式推出年度旗舰Galaxy S26系列。据悉，Galaxy S26系列一共推出3款机型，包括Galaxy S26、Galaxy S26Plus和Galaxy S26Ultra，该系列全球首发Exynos2600，这是行业内第一款2nm手机芯片。规格方面，Exynos2600采用三星2nm工艺制程，采用10核心设计，CPU包括1个3.80GHz超大核、3个3.26GHz核心以及6个2.76GHz核心，其单核成绩�

三星Galaxy S26 Exynos2600芯片
活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试，成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构，覆盖数据管理、模型接入、插件开发等八大能力域，具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平，可为企业提供低门槛智能体落地解决方案，已在制造、政务、医疗等领域深度应用，助力企业数字化转型。

智能体平台低代码开发企业数字化
锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

国家新闻出版署日前公布新版号，经典游戏《飞飞》续作《飞飞：无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营，将实现三端互通，继承原版飞行系统、人物形象和社交玩法，并优化画面与内容。运营团队正全力推进本地化适配及测试筹备，预约站已上线，玩家可关注官方信息获取测试资格。

飞飞:无限宇宙 Flyff Universe
相约抚仙湖，第12届TMA大奖终审会即将启动

第12届TMA大奖终审会将于10月31日至11月1日在云南抚仙湖举行，主题为“AI生万物，移往无前”。本届赛事延续移动营销和AI创新赛道，新增与京东合作的“数智营销赛道”，聚焦经营增长类别。评审团涵盖70位行业专家及16位新锐评委，覆盖品牌、媒体、高校等多领域。TMA创办于2014年，累计征集超7500件作品，覆盖3000多个品牌，是中国移动与AI营销领域权威奖项。

抚仙湖 TMA大奖移动营销
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表

今日大家都在搜的词：

热文

3 天
7天

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

最强Mate旗舰！华为Mate 80本月下旬亮相

科普 | 读懂HBM和DRAM，才懂AI算力未来

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

AI生万物，移往无前 | 第12届TMA大奖终审会成功举办

猛玛LARK MAX 2荣登《财富》中国最佳设计榜：定义无线麦克风新标杆

全球首款2nm手机芯片来了！三星Galaxy S26首发明年2月见

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

相约抚仙湖，第12届TMA大奖终审会即将启动

华为WATCH Ultimate 2非凡探索版明日开启预售

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机