首页 > 业界 > 关键词  > LLaMA2最新资讯  > 正文

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

2023-10-21 16:54 · 稿源:站长之家

要点:

1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。

2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。

3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。

站长之家(ChinaZ.com) 10月21日 消息:复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。

目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。

image.png

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。

这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。

举报

  • 相关推荐
  • 最强Mate旗舰!华为Mate 80本月下旬亮相

    华为Mate 80系列会在11月25日前后发布,这将是史上最强Mate旗舰。 据悉,本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰,其中标准版代号Voyager,支持66W有线快充;Pro、Pro 及RS版统一采用Sagittarius代号,支持100W有线充电。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • AI生万物,移往无前 | 第12届TMA大奖终审会成功举办

    11月1日,第12届TMA大奖终审会在云南玉溪成功举办。本届赛事聚焦移动营销与AI创新,新增数智营销、AI创新等赛道,细分短剧营销、节日/事件营销等类别。60余位行业专家评审入围案例,最终获奖结果将于12月19日盛典揭晓。活动搭建了行业交流平台,推动营销与AI技术融合发展。

  • 猛玛LARK MAX 2荣登《财富》中国最佳设计榜:定义无线麦克风新标杆

    猛玛无线监听麦克风LARK MAX2凭借颠覆性创新入选《财富》中国最佳设计榜。产品通过2.4G自适应跳频技术实现25毫秒无感延迟和百米稳定监听,彻底解决传统有线设备对创作自由的束缚。其14克超轻机身配合"无Logo反戴"设计,在专业场景中兼顾收音效果与画面美感。该产品经权威声学测试,在音频保真度、信噪比等核心指标均达专业录音级水准,彰显了猛玛在声学技术研发的深厚实力。

  • 全球首款2nm手机芯片来了!三星Galaxy S26首发 明年2月见

    快科技11月3日消息,据媒体报道,三星将于2月25日在旧金山举行Galaxy Unpacked活动,正式推出年度旗舰Galaxy S26系列。据悉,Galaxy S26系列一共推出3款机型,包括Galaxy S26、Galaxy S26Plus和Galaxy S26Ultra,该系列全球首发Exynos2600,这是行业内第一款2nm手机芯片。规格方面,Exynos2600采用三星2nm工艺制程,采用10核心设计,CPU包括1个3.80GHz超大核、3个3.26GHz核心以及6个2.76GHz核心,其单核成绩�

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • 锐我科技正式获得Gala授权 《飞飞:无限宇宙》即将启程

    国家新闻出版署日前公布新版号,经典游戏《飞飞》续作《飞飞:无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营,将实现三端互通,继承原版飞行系统、人物形象和社交玩法,并优化画面与内容。运营团队正全力推进本地化适配及测试筹备,预约站已上线,玩家可关注官方信息获取测试资格。

  • 相约抚仙湖,第12届TMA大奖终审会即将启动

    第12届TMA大奖终审会将于10月31日至11月1日在云南抚仙湖举行,主题为“AI生万物,移往无前”。本届赛事延续移动营销和AI创新赛道,新增与京东合作的“数智营销赛道”,聚焦经营增长类别。评审团涵盖70位行业专家及16位新锐评委,覆盖品牌、媒体、高校等多领域。TMA创办于2014年,累计征集超7500件作品,覆盖3000多个品牌,是中国移动与AI营销领域权威奖项。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

今日大家都在搜的词: