首页 > 业界 > 关键词  > LLM最新资讯  > 正文

LongLoRA:提升LLM上下文能力的创新微调方法

2023-10-07 08:55 · 稿源:站长之家

要点:

1. LongLoRA是一种创新的微调方法,可以显著增强大语言模型的上下文处理能力,而无需消耗大量算力资源。

2. LongLoRA采用了两大步骤的高效微调方法,包括使用转变短注意力(S2-Attn)和有效扩大上下文的技巧,可以在不同任务上取得出色的结果。

3. LongLoRA展示了大型语言模型在处理更多信息时能力的提升,尤其擅长处理长文本和长对话中的特定主题,为处理复杂任务提供了新的可能性。

站长之家(ChinaZ.com)10月7日 消息:LongLoRA是一种全新的微调方法,旨在提高大语言模型(LLM)的上下文处理能力,而无需过多的算力资源。传统上,增加LLM的上下文处理能力需要大量的算力支持,但LongLoRA采用了创新的方法,使LLM能够处理更长的文本和更多的信息。这种方法的核心是采用了两大步骤的高效微调方法。首先,它使用了一种称为转变短注意力(S2-Attn)的新型注意力形式,该方法能够在训练过程中节省计算能力,同时保持了高效性。其次,LongLoRA重新挖掘了一种名为LoRA的方法,用于有效扩大训练信息的上下文。这个方法在与可训练的嵌入和规范化一起使用时非常有效。

image.png

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

LongLoRA的优势在于它能够在各种任务上取得出色的结果,并且可以与不同大小的LLM一起使用。它可以将用于训练的数据量从4k增加到100k,对于另一个模型,可以增加到32k,而所有这些都可以在一台强大的计算机上完成,与其他技术兼容性良好,不会改变原始模型设计架构。

研究还发现,随着上下文大小的增加,模型的性能更好,这证明了LongLoRA微调方法的有效性。使用更多信息进行训练可以带来更好的结果,例如,一个模型的困惑度性能从2.72降低到2.50,当上下文窗口从8192增加到32768时。此外,LongLoRA还在处理长对话中找到特定主题方面表现出色,与竞争对手相比,它更有效地适应开源数据。

LongLoRA提出了一种创新方法,使大型语言模型能够更轻松、更高效地处理大量信息,而无需消耗大量算力资源。它在处理长文本和复杂任务方面表现出色,为语言模型领域带来了新的可能性。

举报

  • 相关推荐
  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • AI为他们圆了导演梦

    “我们这么小团队做的‘小东西’真的可以吗?” 当得知自己作品《小怪物》入围釜山电影节时,黎晓薇的第一反应是“难以置信”,因为就在几个月前她才开始正式接触AI工具。 和黎晓薇一样幸运的,还有徐文君、小文和MANYMANY团队,这些来自中国的AI创作者们分别带来了《一目五先生》《权利童话》和《九宵》三部作品。 “未来影像计划”由即梦AI联合火山引擎、上海电�

  • AI玩具,再造一个泡泡玛特?

    2025年最时髦的遛娃神器,AI玩具必须拥有姓名。 国庆假期回老家的小小发现,家里小朋友们的玩具库里突然多了一类新玩意。它们不仅外形呆萌可爱,还搭载了AI功能,能和小朋友对话、讲睡前故事,还拥有记忆力,总之,不再是只会唱歌的老古董。 AI玩具赛道火于去年,但当时大部分产品的AI功能主要来源于外置挂件,且智能化程度不高,一度被质疑为蹭热度的套壳产品。�

  • “老登”应用,霸榜AI

    AI应用的争夺战,打到哪儿了? 如果把整个AI行业想象成一座金矿:基础设施层(芯片、算力)相当于“卖铲子”,提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”,告诉大家哪里有金子;而应用层是直接“下场淘金”,把金子变现。 近两年AI应用的使用者越来越多,QuestMobile数据显示,截止到2025年8月,移动端AI应用用户规模达6.45亿,PC端达2.04亿。其中原生APP亿级应用的

  • 云栖大会上,感受AI汽车的“乐与路”

    文章聚焦云栖大会汽车峰会,探讨AI如何重塑汽车产业。核心观点指出:汽车正成为数字AI与物理AI的融合平台,其中VLA(视觉-语言-行动)架构是实现智能驾驶从"功能定义"向"能力涌现"跃升的关键。阿里云通过提供万卡级AI算力集群、通义大模型等技术基础设施,支撑中国车企智能化转型和出海布局。数据显示,超60%中国智能辅助驾驶的AI算力来自阿里云,95%出海车企选择其服务。文章强调,汽车产业正在经历从技术架构到生态合作的全方位重构。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • AI日报:美图RoboNeo上线首月MAU破百万;影视级音画同步模型Gaga AI发布;vivo蓝心3B端侧大模型发布

    本文汇总AI领域最新动态:美图通过组织变革推动AI应用RoboNeo月活破百万;vivo发布蓝心3B端侧大模型,性能超越8B模型;Gaga AI实现静态照片生成60秒电影级视频;ChatGPT周活用户突破8亿;Figma引入Gemini模型提升设计效率;印度试点AI聊天机器人购物;Figure AI推出第三代家用机器人Figure 03;谷歌推出Gemini Enterprise自动化工作流平台。显示AI正从工具向创作者跃升,加速渗透各行业。

  • AI智能锁首标发布,萤石引领行业新变革

    2025中国国际五金展上,萤石网络联合多家企业发布《AI智能锁》团体标准,这是行业首个团队标准。萤石作为核心制定者,凭借其安全技术、全域自研能力及产品创新,获“AI智能锁引航者”认证。旗舰产品Y5000FVX Ultra搭载双摄、雷达系统,实现精准识别与主动安防,并通过OTA升级持续优化。萤石蓝海大模型2.0赋能智能锁,提供消息服务、视频搜索等智慧入户功能,推动行业从工具向“入户管家”升级。市场数据显示,萤石在高端细分领域销量领先,彰显技术优势与市场认可。

  • 爱诗科技,一家AI视频创业公司的生存哲学

    “你还是回去吧,大模型在中国没有机会。” 2023年刚创业,爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。 但两年时间过去,两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是

  • 千亿AI玩具市场:当IP被AI“唤醒”,玩具厂商如何开辟新赛道?

    过去两年AI技术热度飙升,从ChatGPT爆发到谷歌、Meta频发新一代大模型,AI已切实改变生活方式。传统玩具行业正孕育智能化尝试,迪士尼与乐森机器人合作推出Mini Robot智能潮玩,通过“通用底座+可替换IP公仔”平台化设计,结合机器人技术与情感交互,打破单一产品逻辑。该产品支持动作编程、语音定制及UGC内容共享,推动玩具从“产品消费”转向“情绪消费”,成为连接虚拟与现实的新型生命体。

今日大家都在搜的词: