首页 > 业界 > 关键词  > LLM最新资讯  > 正文

LongLoRA:提升LLM上下文能力的创新微调方法

2023-10-07 08:55 · 稿源:站长之家

要点:

1. LongLoRA是一种创新的微调方法,可以显著增强大语言模型的上下文处理能力,而无需消耗大量算力资源。

2. LongLoRA采用了两大步骤的高效微调方法,包括使用转变短注意力(S2-Attn)和有效扩大上下文的技巧,可以在不同任务上取得出色的结果。

3. LongLoRA展示了大型语言模型在处理更多信息时能力的提升,尤其擅长处理长文本和长对话中的特定主题,为处理复杂任务提供了新的可能性。

站长之家(ChinaZ.com)10月7日 消息:LongLoRA是一种全新的微调方法,旨在提高大语言模型(LLM)的上下文处理能力,而无需过多的算力资源。传统上,增加LLM的上下文处理能力需要大量的算力支持,但LongLoRA采用了创新的方法,使LLM能够处理更长的文本和更多的信息。这种方法的核心是采用了两大步骤的高效微调方法。首先,它使用了一种称为转变短注意力(S2-Attn)的新型注意力形式,该方法能够在训练过程中节省计算能力,同时保持了高效性。其次,LongLoRA重新挖掘了一种名为LoRA的方法,用于有效扩大训练信息的上下文。这个方法在与可训练的嵌入和规范化一起使用时非常有效。

image.png

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

LongLoRA的优势在于它能够在各种任务上取得出色的结果,并且可以与不同大小的LLM一起使用。它可以将用于训练的数据量从4k增加到100k,对于另一个模型,可以增加到32k,而所有这些都可以在一台强大的计算机上完成,与其他技术兼容性良好,不会改变原始模型设计架构。

研究还发现,随着上下文大小的增加,模型的性能更好,这证明了LongLoRA微调方法的有效性。使用更多信息进行训练可以带来更好的结果,例如,一个模型的困惑度性能从2.72降低到2.50,当上下文窗口从8192增加到32768时。此外,LongLoRA还在处理长对话中找到特定主题方面表现出色,与竞争对手相比,它更有效地适应开源数据。

LongLoRA提出了一种创新方法,使大型语言模型能够更轻松、更高效地处理大量信息,而无需消耗大量算力资源。它在处理长文本和复杂任务方面表现出色,为语言模型领域带来了新的可能性。

举报

  • 相关推荐
  • 点亮昌平“夜经济”新篇章:首开LONG街打造盛唐不夜城

    昌平区将于2025年6月28日在回龙观·首开LONG街举办"把夏天的夜交给昌平"主题夜经济活动。活动将持续2个月,通过汉唐历史场景复刻、长安主题夜市、传统文化演艺等40+沉浸式体验活动,打造650米长的开放式街区商业综合体。亮点包括:1)与热播剧《长安的荔枝》联动打造2000㎡唐风街区;2)引入西安特色文创美食;3)中央七七夕乐团与汉舞团联袂演出;4)小米之家旗舰店入驻并推出多重消费福利。项目已完成超万平米空间改造,新增宠物草坪、共享花园等设施,致力于构建"商产融合+成长社区+文化体验"的多元场景,打造北京城市更新标杆项目。

  • ColorOS陈希评iOS 26:缺席的AI是最大短板

    ColorOS设计总监陈希发文指出,iOS 26的最大短板依然是缺席的AI,但UI设计更新较大。 此前在去年的WWDC开发者大会上,苹果大肆宣传Apple Intelligence,不过从后续iOS 18的一系列更新来看,苹果在AI方面的表现并不成功,尤其是国行版,进度缓慢。 因此,在今年的WWDC大会上,关于AI的升级内容并不算很多,苹果软件工程高级副总Craig Federighi承认,Siri的AI功能短期内不会推出,因为�

  • 曝苹果全面重命名操作系统:同样的事也发生在ColorOS上

    5月29日快科技消息,苹果计划全面重命名操作系统,下一代系统将采用年份命名(如iOS26)。ColorOS设计总监陈希透露,2020年ColorOS曾为与安卓版本号统一,将ColorOS8更名为ColorOS11。目前ColorOS团队已进入ColorOS16开发阶段,去年发布的ColorOS15因流畅性获"机圈德芙"美誉,新版本表现值得期待。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • iOS 19 或将大幅提升你 iPhone 的电池续航能力

    苹果正在开发的一项新功能,瞄准了用户的一个大痛点 —— 手机电池续航问题……

  • 余承东:如果某“界”后面贴着华为logo 那兄弟我直接躺赢了

    余承东在业内向来以大嘴”企业家形象闻名,像遥遥领先”强得飞起”这类金句广受追捧,热度居高不下。 今日下午,2025(第三届)未来汽车先行者大会盛大开幕。华为常务董事兼终端BG董事长余承东的演讲,为大会增添了不少话题热度。 华为常务董事兼终端BG董事长余承东演讲又是王炸金句,比如我今天先把牛吹到这里,大家继续看,看我们能不能做到”。又比如某公司�

  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • “谜后”服装连锁店logo撞脸小米 小米客服:将核实是否侵权

    近日网友发现连锁服装店"谜后"的橙色Logo与小米公司商标高度相似,引发热议。记者走访发现确有顾客因此误认进店询问,但门店明确表示与小米无关。谜后解释其Logo来自品牌英文缩写,采用橙红配色系公司自主设计。小米客服回应称公司未涉足服装领域,将核实是否侵权。律师指出判断商标相似需综合文字、构图、颜色等因素,考虑是否会造成消费者混淆。由于小米商标知名度高,若服装店要证明未侵权,需提供其设计具有独创性的证据。目前事件仍在调查中。

  • 感光能力大增!华为Pura 80视频能力重磅升级:大光比明暗细节完美还原

    华为Pura80系列将在6月11日发布,作为影像旗舰,这次华为着重升级了视频拍摄能力。 华为在今日的预热中,直接展示了Pura80系列的实拍视频,可以看出在明暗对比明显的复杂光源环境下,依然能够清晰还原画面细节。 左侧的白棋子和棋盘格清晰可见,丝毫不会过亮,与此同时右侧的黑棋子与棋盘格同样完美展现,细节清晰。 从这段视频来看,华为Pura80系列镜头传感器的感�

  • 谷歌投资TAE Technologies,再次押注核聚变发电

    TAE Technologies 宣布完成新一轮融资,筹集了 1.5 亿美元,谷歌已参与 TAE 两轮融资……