首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

YaRN:可高效扩展现有大模型的上下文窗口长度

2023-09-08 14:18 · 稿源:站长之家

要点:

1、YaRN是一种计算高效的方法,可以扩展基于 transformer 的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的 token 和2.5倍更少的训练步骤。

2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。

3、实验表明,YaRN只需要400个训练步骤就能成功实现语言模型的上下文窗口扩展,相比之前的方法降低了10倍的训练样本量和2.5倍的训练步骤。

站长之家(ChinaZ.com)9月8日 消息:大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。

Rotary position embedding(RoPE)增强了模型处理顺序数据和捕获序列中位置信息的能力。然而,这些模型必须超越它们所训练的序列长度进行泛化。

Nous Research、Eleuther AI和日内瓦大学的研究人员提出了YaRN (又一个RoPE扩展方法),该方法可以高效地扩展现有语言模型的上下文窗口长度。

image.png

项目地址:https://github.com/jquesnelle/yarn

RoPE使用复杂数旋转,这是一种有效的编码位置信息的旋转式位置嵌入,使模型能够在不依赖固定的定位嵌入的情况下有效地编码位置信息。这将帮助模型更准确地捕捉长期依赖关系。控制旋转参数是在模型的训练过程中学习的。模型可以自适应地调整旋转以最好地捕捉标记之间的位置关系。

他们采用的方法是压缩变换器,它使用外部记忆机制来扩展上下文窗口。它们从外部存储库中存储和检索信息,使其能够访问超出其标准窗口大小的范围。已经开发了将记忆组件添加到转换器架构的扩展,使模型能够保留和利用来自过去标记或示例的信息。

他们的实验表明,YaRN成功地实现了具有仅400个训练步骤的LLMs的上下文窗口扩展,这是原始预训练语料库的0.1%,比25减少了10倍,比7减少了2.5倍的训练步骤。这使得它在没有任何额外推理成本的情况下高度计算高效。

总的来说,YaRN改进了所有现有的RoPE插值方法,并以无缺点和最小的实施努力替换PI。微调的模型在多个基准上保持了其原有的能力,同时能够关注非常大的上下文范围。未来的研究工作可以涉及内存增强,这可以与传统的自然语言处理模型结合使用。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息,用于下游任务如问答或机器翻译。

举报

  • 相关推荐
  • LongLoRA:超长上下文,大语言模型高效微调方法

    麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力,需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法,在处理大量信息时,也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。

  • 亚马逊机器学习团队推出 Mistral 7B 基础模型 支持8000个token上下文长度

    亚马逊机器学习团队近日宣布,MistralAI开发的Mistral7B基础模型现已在亚马逊SageMakerJumpStart上提供,用户可以通过该平台一键部署模型进行推理。Mistral7B是MistralAI开发的英文文本和代码生成基础模型,拥有70亿个参数,支持文本摘要、分类、文本补全和代码补全等多种用例。它们帮助降低训练和基础设施成本,并支持自定义以适应特定用例。

  • 一口气读完一本三体,Moonshot AI首个大模型产品支持20万字上下文

    2023年10月9日,成立仅半年的大模型初创公司——MoonshotAI宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的智能助手产品KimiChat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着MoonshotAI在这一重要技术上取得了领先水平。MoonshotAI融资超2亿美元。

  • 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0

    IDEA研究院封神榜团队最近开源了最新的代码大模型Ziya-Coding-34B-v1.0,该模型在HumanEvalPass@1的评测上取得了75.5的好成绩,超过了GPT-4的得分。此次开源的Ziya-Coding-34B-v1.0,基于CodeLLaMA34B的预训练模型,经过了两个阶段的有监督精调,支持多种与代码相关的任务,包括代码生成、代码解释、代码纠错以及单元测试的生成等。

  • LongLoRA:提升LLM上下文能力的创新微调方法

    LongLoRA是一种全新的微调方法,旨在提高大语言模型的上下文处理能力无需过多的算力资源。增加LLM的上下文处理能力需要大量的算力支持,但LongLoRA采用了创新的方法,使LLM能够处理更长的文本和更多的信息。它在处理长文本和复杂任务方面表现出色,为语言模型领域带来了新的可能性。

  • AI的大模型时代 ≠ 只有大模型的AI时代

    什么样的技术能经历时间洗礼还历久弥新?答案或许可以归总为一个“三部曲”般的规律——兴起、发展和大规模应用,外加这个过程再一次演进式的迭代。引领第一次工业革命的是蒸汽机,当它演进成为内燃机并开始普及时,第二次工业革命的颠覆者——电能本身以及与它相关的各种设备正处于初创期在电力设备走向微电子的迭代革新时,各种燃油引擎还在持续改良和普及中�

  • 百度发布医疗大模型“灵医大模型

    9月19日,百度正式发布国内首个“产业级”医疗大模型——灵医大模型。百度正式宣布面向大健康上下游产业开放灵医大模型测评、试用,推动医疗行业的数字化和智能化进程。在辅助诊疗方面,灵医大模型可实现通过多轮对话了解病人病情,实时辅助医生确诊疾病,推荐治疗方案,提升就诊全流程的效率和体验,并成为患者的24小时“健康管家”,提供智能客服服务。

  • 周鸿祎:大模型自身不是壁垒,挑战在于垂直大模型深度定制

    “‘360智脑’在部分场景的表现已接近国际先进水平”,9月17日,由南京市人民政府、中国信息通信研究院联合主办,南京经济技术开发区管委会、中国人工智能产业发展联盟共同承办的2023南京人工智能产业发展大会将在宁召开。三六零集团创始人周鸿祎以“垂直大模型引领新工业革命”为题发表主题演讲。在解决大模型安全,将大模型关进笼子之前,这只是人类美好的愿望是要让人保持在决策回路上。

  • 李嘉诚布局大模型

    当房地产商高喊向科技领域转型之际,往往也是其核心地产业务陷入危机之时。为寻找新增长曲线,2018年,许家印通过投资贾跃亭的法拉第未来,正式进军新能源汽车,随后又走上自主造车之路;同年,杨国强开始投资建筑机器人研发以及打造高科技农业生态圈。面对新一轮地产低迷周期,在李嘉诚的资产重组配置表中,AI,正在成为一枚重要砝码。

  • 新微调方法LongLoRA可低成本提升LLM上下文理解能力

    麻省理工学院与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力无需过多的计算资源,为经济型超大LLM的构建铺平了道路。LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。

热文

  • 3 天
  • 7天