复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

2023-10-21 16:54 · 稿源：站长之家

要点:
1. 复旦大学和上海人工智能实验室的研究团队发现，通过微调RoPE位置编码中的旋转角底数（base）这一超参数，可以显著提升大型模型的上下文长度，实现外推能力的稳定提升。
2. 他们提出了一套RoPE外推的缩放法则，可以根据预训练和续训文本长度来预测大模型的支持的上下文长度，并调整旋转角底数以提升外推表现。
3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度，增强外推能力，为自然语言处理等领域的应用提供更多潜力。

站长之家(ChinaZ.com) 10月21日消息:复旦大学和上海人工智能实验室的研究团队在一项新研究中，揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数，显著扩展大型模型的上下文长度，从1.6万tokens延长至100万tokens，同时提升外推能力。这个超参数被称为旋转角底数（base），在RoPE位置编码中起着关键作用。

目前，大型模型如Claude2和GPT-4在支持上下文长度方面存在限制，不超过10万和3.2万tokens，一旦超出这些限制，模型会表现出困难和混乱。这项研究的发现有望解决这一问题，提供更大的上下文窗口长度以应对更复杂的任务。

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

研究的核心在于RoPE位置编码，它是Transformer架构的一部分，用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果，但与相对位置编码相比，它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力，包括代表研究如ALiBi、xPos、BCA等，以及MIT提出的StreamingLLM，可以实现无限的输入长度;二是调整旋转角，代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法，通过微调旋转角底数，成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”，使大型模型的外推表现更出色。然而，现有的研究仅在特定的旋转角底数和续训长度上进行微调，缺乏通用规律，以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律，复旦大学和上海AI研究院的研究人员进行了实验，他们分析了影响RoPE外推能力的各种参数，提出了“临界维度”（Critical Dimension）的概念，并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律，可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度，然后相应地微调旋转角底数，以提升外推表现。

这项研究的实验结果显示，根据这一规律，大型模型能够在输入长度为10万、50万甚至100万tokens的情况下，实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说，这项研究为大型模型提供了一种通用的方法，通过微调RoPE位置编码的超参数，轻松扩展上下文窗口长度，增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能，并提供更多应用潜力。

（举报）

相关推荐
大家在看

关键词：

LLaMA2

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
ChatGPT平替！本地部署Llama2 ，贝锐花生壳3步远程访问

Llama2是由MetaAI开发的一款先进的人工智能模型，专注于理解和生成人类语言文本。这一模型自2023年推出以来，已成为自然语言AI处理领域的一个关注点。由于内容生成式AI工具对算力的高要求，部署在高性能主机或服务器上的Llama2面临着远程访问的难题，这时贝锐花生壳内网穿透技术成为了一个简单有效的解决方案，简单的三步操作，用户可以轻松实现远程访问本地部署的Llama2，无需复杂的网络配置节省了大量时间成本，如需了解贝锐花生壳更多的AI场景应用或申请试用，可以搜索“贝锐花生壳”进入官网。

人工智能自然语言处理开源模型
性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B是一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，令人惊讶的是，它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合和MLP专家混合。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

JetMoE-8B 大模型 AI头条
荐1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

3月28日，著名数据和AI平台Databricks在官网正式开源大模型——DBRX。DBRX是一个专家混合模型有1320亿参数，能生成文本/代码、数学推理等，有基础和微调两种模型。Databricks主要提数据智能分析服务，帮助企业、个人用户快速挖掘数据的商业价值。

大模型 DBRX
开源大模型DBRX：1320亿参数，比Llama2-70B快1倍

大数据公司Databricks最近发布了一款名为DBRX的MoE大模型，引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型，成为了新的开源之王。根据Databricks公布的协议，基于DBRX打造的产品，如果月活超过7亿，就必须另行向Databricks提交申请。

DBRX Llama2-70B AI头条
Gorq推出iOS应用支持Llama3、Gemma等

Gorq的iOS应用已经推出，旨在为用户提供快速高效的输出服务，该应用支持的模型有Llama38B、70B、Llama270B、Mixtral8X7B、Gemma7B。安装地址:https://testflight.apple.com/join/Y9X0wGsiGorq的处理速度在App端的体验会更直观，LLM响应对话内容推理时间在1s内，再加上语音合成时间，实时对话就更流畅了。为了让用户更加方便地安装和使用，开发者提供了TestFlight链接。

Gorq AI头条
最强大模型Llama 3正式发布已达GPT4级别

Meta公司宣布了一项重大技术进展，发布了其最新的开源模型——Llama3。这一模型包含两种参数规模:8B和70B，预计将于今年7月正式面世。MetaAI还整合了搜索功能，可以直接访问网络上的实时信息，无需切换应用。

Llama3 AI头条
荐Llama 3每秒输出800个token逼宫openAI！下周奥特曼生日或放出GPT-5？

【新智元导读】Llama3的开源，或将催生数十亿美元新产业。发布不到一周的时间，全网各种测试微调都开启了。但在还没有发布GPT-5之前，初创公司需要有危机感了。

openAI GPT-5
荐Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

Llama3来了!就在刚刚，Meta官网上新，官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示，Llama38B和70B版本在各自参数规模上超越一众对手。好在乌龙完了，官方也没拖着，关心开源大模型的小伙伴们，可以造作起来了。

Llama3
荐开源大模型Llama 3王者归来！最大底牌4000亿参数，性能直逼GPT-4

扎克伯格:「有了Llama3，全世界就能拥有最智能的AI。」ChatGPT拉开了大模型竞赛的序幕，Meta似乎要后来居上了。也许只有OpenAI的GPT-5才能压下开源模型了。

GPT-4 Llama3 AI
阿里云推出针对Llama 3系列模型限时免费训练、部署、推理服务

Meta公司发布了全新的Llama3系列阿里云魔搭社区迅速响应，将这一系列的四款模型全部上架。阿里云百炼大模型服务平台更是宣布，将提供针对Llama3系列的限时免费训练、部署和推理服务，旨在帮助企业和开发者利用这一强大工具，快速构建属于自己的专属大模型。企业和开发者只需在阿里云百炼模型广场进行申请，一旦通过，便能迅速体验Llama3的卓越性能，并与其他模型进行直观的比较。

今日大家都在搜的词：

热文

3 天
7天

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

今日大家都在搜的词：

热文

站长商机