首页 > 传媒 > 关键词  > 大语言模型最新资讯  > 正文

昇腾生态硬核赋能!上交大攻克超长上下文推理难题,性能大幅跃升

2025-11-26 17:40 · 稿源: 站长之家用户

随着大语言模型在文本分析、智能问答等场景的广泛应用,处理1M超长文本推理时,常常面临显存不足运算速度卡顿的行业痛点,严重限制了超长文本场景的应用。近日,上海交通大学李健教授团队依托上海交通大学 鲲鹏昇腾科教创新卓越中心的算力支持,基于vLLM-Ascend 推理框架研发出一套针对超长上下文推理的稀疏注意力 KV Cache 分层缓存管理系统。在昇腾 AI 软硬件平台的全方位赋能下,该项目成功破解单卡支持超长上下文推理的显存与性能双重难题,同时大幅提升吞吐量。

项目核心创新在于设计了 KV Cache 分级缓存集成机制。该机制先对推理任务进行实时分析,智能识别Top-K 重要块并集中算力处理,从源头提升计算效率;同时采用数据冷热分层存储策略,根据数据访问频率,将生成数据动态划分为高频热数据与低频冷数据,再针对性优化存储位置,减少资源浪费。这一机制的落地依托昇腾CANN异构计算架构灵活的动态调度能力,能精准控制冷热数据在显存与主存间的流转,大幅降低数据迁移开销。最终,该方案实现单卡流畅处理超过1M的超长文本推理任务,系统推理吞吐量超过39%,彻底突破传统系统在长序列处理上的显存与性能瓶颈。

同时项目进行了元数据结构优化与缓存机制设计,其中数据索引与掩码是关键支撑 —— 通过精简索引结构、合并掩码维护步骤,有效减少重复运算,使昇腾NPU算力更集中于注意力计算与文本生成等核心任务,提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成,保障了技术方案的顺利落地。

目前,该项目源代码已在 Gitee 社区中开源,后续将进一步推送到昇腾开源生态,合入GitHub社区 vLLM-Ascend 项目专区。此次技术突破,不仅为超长文本推理提供了高效解决方案,更印证了昇腾生态在AI创新中的赋能价值。未来,随着该系统在更多行业场景的落地,昇腾将持续为AI技术研发提供算力与技术保障,推动大语言模型在长文本分析、智能办公、数字孪生等千行百业的深度应用,加速人工智能产业化进程。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 国产存储突破:绿算GP7000率先适配英伟达G3层KV Cache架构,AI推理效率提升17倍

    2026年1月15日,绿算技术宣布其GP7000全闪存存储平台已通过英伟达适配,成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化方案。该平台采用存算分离架构,结合以太网闪存簇设计,为下一代AI工厂建设提供关键基础设施支撑,能显著提升推理吞吐量并降低延迟,实现成本与效率的最优平衡。

  • 国产全球最强医疗大模型Baichuan-M3发布:已超越GPT-5.2与人类医生

    AI大模型今年会向更专业的方向发起猛攻,除了AI编程之外,AI医疗也成为一大重点,OpenAI刚收购了一个医疗初创公司,Cluade也推出了AI医疗助手。 今天还有一家国产大模型新品也将目光瞄准了医疗,那就是Baichuan-M3,这是知名大佬王小川投资成立的百川智能发布的AI医疗大模型,号称全球最强。 据百川智能介绍,Baichuan-M3 专为医疗场景深度优化,融合海量医学文献、临床指南�

  • 陈天桥最新长文:生物科技的“大航海时代”,需要市场的“风险定价”

    文章指出,人类正站在新的历史节点:探索方向从地理转向生物学内部。面对AI的竞争,人类必须打破“医疗模式”的局限,从“治病”转向“进化”。这需要建立新的风险分担机制,如探索担保体系,包括失败补偿基金、分层风险池和长期责任保险。资本应从逐利转向支持提升人类能力的尝试。文章呼吁复兴“大航海时代”的探索精神,通过制度将冒险变得可治理,用数据使失败可复用,用章程让红线可执行,最终实现碳基生命与硅基智能并行的未来主权。

  • 一乐园摩天轮火了 速度超快还不带门 网友:尼泊尔盗版迪士尼

    ​近日,尼泊尔一处被称为“盗版迪士尼”的游乐园因摩天轮安全设施问题引发全球关注。游客拍摄的现场视频显示,该摩天轮不仅无舱门设计,且以远超常规的速度高速运转,乘客仅靠抓握栏杆维持平衡。 据社交媒体流传的视频显示,这座位于尼泊尔的摩天轮结构简陋,运行过程中发出刺耳的金属摩擦声。有目击者称,部分乘客因恐惧全程尖叫,甚至有人双手脱离栏杆蜷缩

  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

  • vivo Y500i正式开售:1499元起 搭载6年超长寿电池

    vivo Y500i于1月16日上市,起售价1499元。该机主打7200mAh超大容量电池,支持44W快充,电池寿命长达6年,并具备直驱供电功能。屏幕为6.75英寸LCD直屏,支持120Hz刷新率,通过莱茵低蓝光认证。搭载第二代骁龙4芯片,后置5000万像素主摄,支持立体声双扬声器。机身通过SGS五星抗跌耐摔认证,具备IP68及IP69双重防尘防水等级,并针对户外场景设计扬声器一键排水除尘功能。此外,支持一碰即连门禁卡、电动车钥匙及红外遥控,运行OriginOS 6系统,官方承诺50个月持久流畅。

  • 小鹏第二代VLA一季度正式上车!行业首次去掉语言转译环节

    小鹏汽车召开全球新品发布会,董事长何小鹏宣布,第二代VLA技术将于今年第一季度正式上车。相较于传统VLA模型,该技术首次去除了语言转译环节,同时搭载2250TOPS车端有效算力与3万卡云端算力集群,算力水平位居行业前列。 且第二代VLA的训练数据量近1亿clips,覆盖场景等效于人类司机累计驾驶6.5万年的极限路况总和。何小鹏还深入阐释了L2与L4的四大核心差异在于能力、�

  • 全球AI新品京东首发 三天超长CES探展直播让3C数码新品触手可及

    CES 2026在美国拉斯维加斯开幕,京东作为连接全球科技品牌与中国市场的“超级接口”,不仅派出专业团队深入现场开展为期三天的超长直播探展,更联合多家头部品牌推动多款重磅AI新品京东首发。用户通过京东APP搜索“2026CES”即可入手CES同款新品,享受从展台直达手中的“零时差科技盛宴”。京东凭借其超级供应链优势,正成为全球科技进入中国市场的“首站”与“主场”。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • OpenAI宣布ChatGPT将引入广告 强调用户数据不会出售给广告商

    OpenAI宣布将在未来几周内,在美国的免费版和Go订阅版ChatGPT中测试广告投放,但Plus、Pro、Business和Enterprise订阅用户不受影响。广告将独立呈现,清晰标注,并与原始回答分开,且不会影响ChatGPT基于客观信息的回答。公司强调,用户数据和对话将受到严格保护,不会出售给广告商。此举旨在通过广告业务增加收入,以支持其确保AGI造福全人类的使命,同时让AI能以更广泛、更可及的方式服务大众。测试初期,广告将出现在相关回答底部,且不会向未满18岁的用户展示,也不会出现在身心健康、政治等敏感话题附近。OpenAI始终会提供不显示广告的付费选项。

今日大家都在搜的词: