首页 > 业界 > 关键词  > LongLoRA最新资讯  > 正文

新微调方法LongLoRA可低成本提升LLM上下文理解能力

2023-09-26 16:53 · 稿源:站长之家

文章概要:

1. 长文本理解突破:MIT与香港中文大学合作研发出LongLoRA,一种优化方法,可提升大型预训练语言模型(LLM)的上下文理解能力,而无需大量计算资源。

2. 训练方法创新:研究人员采用稀疏本地关注与参数高效调优策略相结合的方法,显著降低了训练成本,同时保持性能。

3. 上下文长度的关键性:文章讨论了上下文长度对LLM性能的影响,强调了在某些情况下,上下文长度比模型参数数量更为重要。

站长之家(ChinaZ.com) 9月26日 消息:近日,麻省理工学院(MIT)与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型(LLM)的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力,而无需过多的计算资源,为经济型超大LLM的构建铺平了道路。

LLM在自然语言处理领域发挥着巨大的作用,但通常需要巨大的计算资源来进行训练。文章指出,训练一个具有8192长度上下文的模型,相比于2048长度上下文,需要16倍的计算资源。而上下文长度实际上代表了LLM在回应给定提示时对整个上下文的清晰理解能力,这对于模型的性能至关重要。

AI机器人玩游戏

图源备注:图片由AI生成,图片授权服务商Midjourney

LongLoRA方法的创新之处在于研究人员采用了两种关键方法来拓展LLM的上下文理解能力。首先,他们采用了稀疏本地关注,具体是“shift short attention(S2-Attn)”方法,通过这一方法在Fine-tuning过程中,高效地实现了上下文的拓展,同时保持了与标准关注机制相似的性能水平。

其次,研究人员重新审视了参数高效调优策略,发现结合可训练的嵌入和标准化方法的LoRA在上下文扩展方面非常有效。LongLoRA在多个任务中都获得了强大的实验结果,使用了LLaMA2模型,从7B/13B到70B不等。这一方法可以将模型的上下文从4k扩展到100k,适用于LLaMA27B,或者从32k扩展到LLaMA270B,而仅需要一台8× A100机器。值得注意的是,LongLoRA保持了原始模型架构,并与各种现有技术兼容。

为了提高LongLoRA方法的实用性,研究团队还创建了LongQA数据集,用于监督Fine-tuning,包括超过3,000个问题-答案对,其中包含了详细的上下文。

研究的关键发现包括对长序列语言建模的评估,研究发现,通过更长的上下文训练,模型的性能得到了提升,这显示了他们Fine-tuning方法的有效性。另外,研究还探讨了这些模型在单台机器上能够处理的最大上下文长度,发现即使在较小的上下文长度下,模型仍然表现出色。此外,研究还进行了基于检索的评估,测试了模型在寻找长对话中特定主题的任务中的表现,结果显示,这些模型在某些情况下甚至优于同类竞争模型,并且更高效地适应了开源数据。

最近的讨论中,关于LLaMA和Falcon等语言模型的性能已经开始超越了更大模型(如GPT-4或PaLM),焦点逐渐从增加模型参数数量转向了上下文令牌数量或上下文长度的考虑。文章还引用了一项研究,指出与常见误解相反,较长的输入文本并不总是导致更好的输出。实际上,在将较长的文章输入模型(例如2000字)时,模型通常只能理解前700-800字的内容,之后生成的回应可能会变得不太连贯。这一现象类似于人类记忆的工作方式,信息的开头和结尾通常比中间部分更容易被记住。

LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。

举报

  • 相关推荐
  • ColorOS 16 Beta开启尝鲜招募 首批机型含一加13等

    今日,ColorOS开启Beta测试版本招募,数码博主数码闲聊站”透露,此次Beta测试为全新ColorOS 16。 本次招募首批机型为一加13、一加13T、OPPO Find X8系列、OPPOFind N5,每款机型均招募300人,符合机型条件的可在8月12日17:00之前报名。

  • 天狮李金元:Globast供应链如何织就大健康产业的“品质安全网”

    天狮集团李金元主席带领团队构建Globast供应链,通过覆盖研发、生产、物流到消费终端的全链条透明化管理,重新定义大健康产业品质标准。该系统整合区块链技术实现产品溯源,消费者扫码即可查看原料产地、生产批次等全流程数据。面对行业监管严格和消费者对透明化的迫切需求,天狮以垂直领域专业化能力推动行业规范升级,打造“品质闭环”,持续释放健康消费信任红利。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 内外双屏 随心定义 快用Good Lock“打扮”你的三星Galaxy Z Flip7

    三星Galaxy Z Flip7折叠屏手机凭借精致设计和出色体验获得消费者青睐。文章重点介绍了通过"Good Lock"应用深度定制手机的方法:1)Home Up和主题公园提供主屏幕布局和主题综合定制;2)LockStar可自定义锁屏界面,添加常用APP快捷入口;3)Keys Cafe打造个性化键盘效果;4)ClockFace为外屏时钟添加文字/图片/GIF动图;5)MultiStar新增FlipShot功能,为自拍用户提供动态背景特效。这些工具让用户能根据个人喜好,从界面布局到细微功能进行全面定制,将手机打造成彰显个性的专属设备。

  • “治愈系”日本留学生@树莓。衮 如何靠摆烂vlog让400万粉丝追更?

    在叠满美颜滤镜和“人均天花板”的抖音精选,一个画风格外清奇的账号杀出重围。 镜头前的女孩素面朝天,打着哈欠伸懒腰,甚至毫不介意露出微胖的小肚腩。 她自嘲“留学的留是留级的留”,在vlog中记录赶电车迟到时的气急败坏、听不懂课的一脸懵、甚至被黑心中介坑骗的委屈。

  • WEEX亮相里约热内卢Blockchain.RIO:以社区为核心驱动全球化进程

    拉美地区Web3盛会Blockchain.RIO在巴西里约热内卢成功举办,WEEX交易所作为铂金赞助商亮相。WEEX首席运营官Andrew发表主题演讲,重点介绍WXT经济设计理念和平台生态发展战略,强调"流动性建设与平台生态发展"的运营思路。此次活动标志着WEEX全球化战略在拉美市场的深化推进,通过"技术稳健、社区参与、合规发展"三位一体策略构建品牌竞争力。WEEX将持续强化本地�

  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • 10后小孩靠做饭Vlog涨粉百万,戳中了哪些流量密码?

    ​见惯了打工人的生活日常,你见过小学生的放学做饭日常吗? 近期,一批10后“小孩哥”“小孩姐”凭借做饭Vlog在网络上刷屏,他们娴熟的厨艺与稚嫩的外表形成强烈反差:10后小女孩站在灶台前动作娴熟地颠勺翻炒,上二年级的小男孩在菜市场熟练地和摊主讨价还价,回家后做出三菜一汤…… 这种反差感极强的场景,正通过短视频平台持续发酵,单个视频甚至收获超500万的

  • 天狮李金元:用Globast供应链撬动全球大健康版图

    天狮集团董事局主席李金元33年深耕大健康产业,打造全球供应链网络Globast。该系统通过智能算法预测需求、区块链技术溯源产品,实现224个国家和地区的物流高效协同。社交电商结合拼团玩法提升复购率,数字化供应链使跨境响应时间缩短、库存成本降低。李金元将供应链视为大健康产业的生命线,以天津为起点构建全球化通路,持续推动产业版图扩张。

今日大家都在搜的词: