LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

2024-04-29 17:47 · 稿源：新智元公众号

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。

大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题，目前模型的上下文窗口大多不超过128k个token

最近，Microsoft Research的研究人员提出了一个新模型LongRoPE，首次将预训练 LLM 的上下文窗口扩展到了2048k个token，在256k的训练长度下只需要1000个微调步骤即可，同时还能保持原始短上下文窗口的性能。

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

LongRoPE主要包含了三个关键创新点:

1. 通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供了更好的初始化，并在非微调情况下实现了8倍扩展;

2. 引入了渐进扩展策略，首先微调256k 长度的 LLM，然后在微调扩展的LLM上进行第二次位置插值，以实现2048k 上下文窗口;

3. 在8k长度上重新调整 LongRoPE以恢复短上下文窗口性能。

在 LLaMA2和 Mistral 上对各种任务进行的大量实验证明了该方法的有效性。

通过 LongRoPE 扩展的模型保留了原始架构，只对位置嵌入稍作修改，并且可以重复使用大部分已有的优化。

位置插值的不均匀性

Transformer模型需要明确的位置信息，通常以位置嵌入（position embedding）的形式来表示输入token的顺序。

本文中的位置嵌入表示方法主要来自于RoPE，对于位置索引为 n 的标记，其相应的 RoPE 编码可简化如下:

其中，d 是嵌入维度，nθi 是标记在位置 n 上的旋转角度，θi = θ -2i/d 表示旋转频率。在 RoPE 中，θ 的默认基准值为10000。

受 NTK 和 YaRN 的启发，研究人员注意到这两个模型可以从非线性嵌入中获得性能提升，特别是在考虑 RoPE 各维度的不同频率以进行专门的内插法和外推法时。

然而，当前的非线性在很大程度上依赖于人为设计的规则。

这也自然引出了两个问题:

1. 当前的位置插值是否是最佳的?

2. 是否存在尚未探索的非线性?

为了回答这些问题，研究人员使用进化搜索（evolution search）为LLaMA2-7B发现更好的非均匀位置插值。搜索以易错性为指导，使用来自PG19验证集的5个随机样本。

通过实证分析，研究人员总结了几个主要发现。

发现1:RoPE维度表现出很大的不均匀性，目前的位置插值方法无法有效处理这些不均匀性;

在公式2中为每个 RoPE 维度搜索最佳 λ。

研究人员对比了PG19和Proof-pile测试集上使用不同方法的 LLaMA2-7B 在不进行微调的情况下的复杂度。

从结果来看，搜索到的解决方案有明显改善，表明当前的线性（PI，positional interpolation）和非均匀(Dynamic-NTK 和 YaRN)插值方法都不是最佳的。

值得注意的是，YaRN 在 PG19上的表现不如 PI 和 NTK，因为其达不到非微调 LLM 的目标上下文窗口长度。

例如，在8k 上下文大小的情况下，YaRN 的困惑度在7k 后达到峰值。

通过搜索，公式2中的重标度（rescaled）因子λ变得不均匀，与PI、NTK的公式计算和YaRN的分组计算中的固定标度s有所不同。

在8k和16k上下文窗口中，这些非均匀因子大大提高了LLaMA2的语言建模性能（即复杂度），而无需进行微调，主要是因为由此产生的位置嵌入有效地保留了原始的RoPE，尤其是关键维度，从而降低了LLM区分近似token位置的难度。

发现2:输入序列中初始词块的RoPE推断应减少插值;

对于输入序列中的初始n个token，假设RoPE应该做较少的插值，这是因为会获得较大的注意力分数，从而对注意力层至关重要，正如在Streaming LLM和 LM-Infinite 中观察到的那样。

为了验证这一点，研究人员使用PI和NTK将上下文窗口扩展到8k 和16k，保留前 n（0，2， ...，256）个token，不进行插值。当n=0时，则恢复到原来的 PI 和 NTK

上表中可以观察到两个结果:

1. 保留起始token而不进行位置插值确实能提高性能。

2. 最佳起始token数n取决于目标扩展长度。

发现3:在微调和非微调设置中，非均匀位置插值都能有效扩展 LLM 上下文窗口。

虽然已经证明，在不进行微调的情况下，搜索到的非均匀位置插值能显著提高8k和16k扩展性能，但更长的扩展需要微调。

因此使用搜索到的RoPE对LLaMA2-7B的64k上下文窗口大小进行了微调。

从结果中可以看到，在微调LLaMA2-7B之前和之后，该方法都明显优于PI和YaRN，主要原因是有效地使用了非均匀位置插值、最小化信息损失，以及为微调提供了更好的初始化。

受上述发现的启发，研究人员提出了LongRoPE，首先引入了一种高效的搜索算法，以充分利用这两种不均匀性，并将LLM上下文窗口扩展到200万个token

具体形式化算法参见原文。

实验结果

研究人员将LongRoPE应用于LLaMA2-7B和Mistral-7B模型上，并从三个方面对其性能进行了评估:

1. 长文档中扩展上下文 LLM 的困惑度;

2. 密钥（passkey）检索任务，该任务衡量模型从大量无关文本中检索简单密钥的能力;

3.4096上下文窗口的标准LLM基准;

在256k范围内进行长序列语言建模

在Proof-pile和PG19上通过不同插值方法扩展的 LLaMA2和 Mistral 的困惑度。

从实验结果中可以得出两个关键的结论:

1. 从4k 到256k 的评估长度来看，扩展模型展现出整体困惑度下降的趋势，表明模型有能力利用更长的上下文;

2. 即使在上下文窗口长度为16倍的情况下（这通常是在较短上下文长度下保持性能所面临的挑战），我们的 LongRoPE-2048k 模型在256k 上下文长度内的性能仍优于最先进的基线模型。

超过2000k的长序列语言建模

为了评估超长文档的有效性，研究人员使用了Books3数据集。

为了评估效率，随机选择20本书，每本长度超过2048k个token，并使用256k的滑动窗口。

从结果中可以看出，LongRoPE成功地将LLaMA2-7B和Mistral-7B的上下文窗口扩展到2048k，同时还在8k-128k的较短长度内实现了与基线相当或更好的困惑度。

还可以观察到2048k LLaMA2和Mistral之间的显著性能差异:Mistral在较短的长度上优于基线，但困惑度在超过256k长度时达到7

LLaMA2的性能与预期一致:随着时间的延长，困惑感会有所减少，在1024k和2048k时略有增加。

此外，在LLaMA2上，LongRoPE-2048k在256k比128k的微调长度下表现更好，主要是由于次级延伸比（secondary extension ratio）更小(即8倍对16倍)。

相比之下，Mistral在微调128k的窗口大小方面表现更好，主要原因是对于Mistral的128k和256k微调，研究人员遵循YaRN的设置使用16k训练长度，影响了Mistral在微调后进一步扩展上下文窗口的能力。

参考资料:

https://arxiv.org/abs/2402.13753

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

微软研究人员提出的LongRoPE方法首次将预训练的大型语言模型的上下文窗口扩展至2048k个token，实现了8倍的扩展同时保持原始短上下文窗口的性能无需进行架构变化和复杂微调。该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供更好的初始化，并在非微调情况下实现了8倍扩展;引入了渐进扩展策略，首先微调256k长度的LLM，然后在微调扩�

LongRoP LLM AI头条
谷歌硬刚GPT-4o，60秒视频生成模型虽迟但到，还把上下文窗口卷到了200万

OpenAI出手再次惊艳世界，谷歌果然坐不住了。GPT-4o掀起的一片“AGI已至”的惊呼声中，刚刚，GoogleDeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场:同样能会还有，不仅能几乎没有延迟地和人类流畅交流，通过摄像头，这个名为ProjectAstra的AI助手甚至能直接帮忙读代码谷歌还祭出了自己的硬件优势，带来一波AR和大模型的梦幻联动。有关谷歌I/O的更多细节，可以戳:https://blog.go

OpenAI Google GPT-4o
被曝可能受粪便中细菌污染：200万瓶雀巢巴黎水被销毁

不少消费者推崇的法国巴黎水”出事了，被曝细菌超标，并且遭大规模销毁。当地时间本月25日，法国卫生总局发布通知称，知名气泡矿泉水品牌巴黎水”的200万瓶气泡水，因被怀疑沾染了有害细菌已被销毁。值得一提的是，这并非是雀巢首次因饮用水安全问题被曝光，今年1月份，雀巢方面承认违法使用紫外线灯、碳过滤等方法给天然矿泉水做消毒处理，法国检察机关对其在法国经营饮用水的分公司就净化天然矿泉水的方法展开刑事调查。
月之暗面推出 Kimi+ 助手支持研报生成、200万字无损等功能

Kimi智能助手在节后迎来了首次大规模更新，为用户带来了全新的Kimi功能。用户只需在网页聊天框中轻松输入@，或在左侧工具栏一键点击，即可畅享Kimi带来的便捷与智能。全新升级的Kimi功能无疑将为用户带来更加便捷、智能的使用体验。

Kimi智能助手 Kimi+ AI生产线
苹果万年不变的1200万超广角升级了！iPhone 16 Pro影像曝光

在iPhone14Pro系列中，苹果将主摄镜头的像素从1200万提升到了4800万，但超广角镜头仍然保持着1200万像素的水准。直至iPhone15Pro系列，1200万像素的超广角镜头仍然是苹果的标配。在iPhone上，空间视频以常规的二维视频形式呈现在VisionPro上，则以3D形式展示，呈现更为震撼的视觉效果。

iPhone 16 Pro
龙芯7A2000获驱动更新：GPU性能已达发布时2倍多！

龙芯中科在2022年7月推出7A2000芯片，首次集成了自研的GPU核心，经过持续的驱动更新，其GPU性能已经显著提升。随着统信在前不久发布的1070版UOS系统，龙芯7A2000的最新驱动得到集成，性能得到了进一步优化了。7A2000的GPU核心频率达到400-500MHz，支持OpenGL2.1和OpenGLES2.0规范，显存频率达到2000MHz-2400MHz，最大支持16GB，能够支持两路显示。

龙芯中科 GPU性能提升统信UOS系统
谷歌Gemini 1.5 Pro面向全球开发者开放已支持200万tokens

GoogleI/O2024开发者大会在谷歌山景城总部附近的海岸线圆形剧场隆重开幕。在这场科技盛宴中，谷歌率先分享了Gemini大模型的最新突破。随着Gemini模型的进一步升级和扩展，我们有理由相信谷歌将继续引领AI技术的发展潮流，为开发者提供更加高效、智能的工具和平台。

Google I/O2024 Gemini大模型
Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2

RefuelAI最近宣布推出两个新版本的大型语言模型，RefuelLLM-2和RefuelLLM-2-small，这两个模型专为数据标注、清洗和丰富任务设计，旨在提高处理大规模数据集的效率。RefuelLLM-2的主要特点包括:自动化数据标注:能够自动识别和标记数据中的关键信息，如分类数据和解析特定属性。RefuelAI的这一创新为数据标注和清洗领域带来了新的解决方案，有助于自动化和优化大规模数据处理流程。

RefuelLLM-2
腾讯开源混元DiT 图像生成模型可根据对话上下文生成并细化图像

腾讯开源了混元DiT图像生成模型，对英语和中文都有着精细的理解能力。Hunyuan-DiT能够进行多轮多模态对话，根据对话上下文生成并细化图像。它通过结合Transformer结构、文本编码和位置编码，以及训练一个多模态大型语言型，实现了对中英文的细粒度理解，并在图像生成等任务中取得了显著的效果。

DiT 图像生成模型 AI头条
快手“新农人”成农产品上行主力军，200万粉丝“王北四在东北”首场直播GMV近千万

堆成小山的产品铺在桌面上，王北四站在桌前一遍遍地介绍着产品的特点、口味、用法，一边又不断强调着产品在直播间的福利价格……5月8日中午12点，为感谢快手粉丝一直以来的支持，200多万粉丝的快手主播@王北四在东北开启“相识10周年福利专场”直播，这也是她在快手开启的首场直播。得益于四川媳妇王北四接地气且真实的好内容，以及快手社区老铁信任关系累积，直

今日大家都在搜的词：

热文

3 天
7天

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

位置插值的不均匀性

实验结果

今日大家都在搜的词：

热文

站长商机