首页 > 业界 > 关键词  > LongRoP最新资讯  > 正文

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

2024-04-29 13:56 · 稿源:站长之家

划重点:

LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 + 复杂微调

⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能

⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,并在较短长度内保持与基线相当或更好的困惑度

站长之家(ChinaZ.com)4月29日 消息:近日,微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。

image.png

该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。

实验结果表明,LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。

产品入口:https://top.aibase.com/tool/longrope

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

举报

  • 相关推荐
  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • vivo Y500 Pro明天发布 旗舰级设计、同档首发2亿HP5主摄

    vivo Y500 Pro将于11月10日发布,定位国民小旗舰。新机采用旗舰级设计语言,配备1.37mm极窄边框和四款配色。首发三星HP5主摄,支持专业防抖和长焦增强算法,是全球首款商用0.5μm像素传感器。搭载天玑7400处理器、7000mAh电池,支持IP68/IP69防水和5年流畅系统。配备1.5K护眼屏,突破超视网膜PPI,支持《王者荣耀》120帧高清体验。

  • iPhone 18 Pro或缩小灵动岛 苹果正测试特殊挖孔方案

    据站长之家报道,iPhone 18 Pro系列正进行屏幕形态革新,测试HIAA挖孔方案,将显著缩小沿用多年的灵动岛设计,提升屏占比与视觉简洁度。同时硬件升级包括:测试可变光圈技术以优化拍照;Pro+Max版采用钢壳电池增强耐用性与安全性;新增透明版本提供个性化选择。超透镜技术的研发旨在缩小Face ID组件体积,确保识别精度,进一步压缩灵动岛区域,提升交互流畅性。

  • 自拍Vlog神器:自然美肤原片直出,告别复杂后期

    佳能PowerShot V1专为Vlog新手设计,解决操作复杂、画面模糊、后期繁琐等痛点。它具备智能场景识别、一键美颜、强大防抖及丰富滤镜,支持5.7K超采样视频,画质专业。机身轻巧仅426克,搭配多款实用套餐,帮助用户轻松上手、直出高质量内容,是记录生活的理想伙伴。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • 一机在手,随心创作:佳能R50V满足你对Vlog、人像与美食视频的所有想象

    佳能R50V微单相机专为视频创作者设计,兼具专业画质与便携性。机身仅重323克,支持6K超采4K视频,配备第二代全像素双核AF系统,可智能追踪人物、动物等多种主体。内置14种色彩滤镜与平滑皮肤功能,优化人像表现。创意拍摄模式支持慢快动作、电影宽银幕比例,竖拍优化与直播兼容性进一步提升创作效率,是Vlog、旅拍和街拍的理想工具。

  • OPPO Find X9 Pro卫星通信版开启预售:6999元

    今日,OPPO Find X9Pro卫星通信版正式拉开预售帷幕,这款备受瞩目的旗舰机型仅提供16GB+1TB这一种豪华配置,售价定为6999元。作为国产手机市场的又一力作,OPPO Find X9Pro卫星通信版在通信技术上实现了重大突破,成为首款支持eSIM服务的国产手机。 除了支持双Nano-SIM实体卡、发送北斗卫星短信等先进功能外,OPPO Find X9Pro卫星通信版还全面兼容中国移动、中国联通、中国电信三大运

今日大家都在搜的词: