首页 > 传媒 > 关键词  > 文章搜索最新资讯  > 正文

昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA

2026-01-13 15:33 · 稿源: 站长之家用户

MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存设计,实现长上下文推理的显存与带宽双重优化,其有效性已在 DeepSeek-V2等模型中得到了验证。但主流预训练模型如LLaMA、Qwen千问等多基于GQA构建,企业已投入大量工程优化,复用MLA需重训,成本极高。为此,在北京大学 鲲鹏昇腾科教创新卓越中心的算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出TransMLA转化框架,实现了无需重训便可将主流模型向MLA迁移。

TransMLA针对GQA向MLA迁移的核心痛点,实现四大技术模块的精准破局:一是GQA→MLA结构映射,破解分组KV头与MLA单头潜在表示不兼容问题,通过特定的线性变换,将GQA分组后的K、V向量投影/融合为单一的低秩潜在表示,并配备上投影矩阵保障KV信息精准恢复,筑牢迁移基础;二是提出RoRoPE技术方案,通过创新适配让位置编码顺畅融入低秩压缩流程,解决了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题;三是通过将RoPE中相邻频率的旋转维度进行折叠(Folding)与融合,在降低参数量的同时,更高效地集中和保留关键的位置信息,从而维持模型在长序列下的语义理解能力;四是通过均衡Key和Value矩阵在压缩前的范数分布,提升联合压缩(如PCA)的数值稳定性,减少信息损失。

在技术落地过程中,昇腾发挥了关键支撑作用。其高效并行计算架构满足结构映射模块的多任务协同处理需求,保障了架构迁移效率;其优化的存储与缓存体系,为 FreqFold 的频率信息处理、BKV-PCA 的范数均衡提供稳定硬件基础,有效提升 KV 压缩的稳定性与资源利用效率,助力 TransMLA 核心技术平稳落地。

经过实验显示TransMLA的转换过程性能优势明显,裁剪LLaMA-2-7B模型68.75%的KV缓存后无需训练,核心性能仅轻微损失,在32K序列长度、FP16精度下,基于昇腾平台的推理速度较之于业界主流GPU平台有显著提升。依托开放的生态资源,昇腾已推动TransMLA稳定支持主流模型部署并将集成至vLLM/SGLang等高性能推理框架生态,便于用户部署,大幅降低企业落地适配成本。

TransMLA与昇腾的协同创新,打通了主流模型与MLA架构鸿沟,充分发挥昇腾生态优势。昇腾全链路支持实现TransMLA“零重训、低损失”目标,保留模型参数优势,降低企业基于昇腾的升级门槛。这一软硬件协同典范,为长上下文推理提供昇腾生态解决方案,推动自主计算与前沿AI融合,彰显昇腾核心引领作用,为大模型产业依托自主硬件降本增效提供可行路径。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • AI日报:宇树开源UnifoLM-VLA-0大模型;腾讯“元宝派”内测截图泄露;Clawd更名为OpenClaw

    本期AI日报聚焦具身智能与AI应用新动态。蚂蚁集团发布LingBot-VLA模型,实现双手机器人通用操控;宇树开源UnifoLM-VLA-0模型,为机器人注入物理常识。开源AI助手OpenClaw更名后受关注,强调隐私安全。商汤开源SenseNova-MARS模型,在多个榜单超越GPT-5.2。腾讯“元宝派”社交功能内测截图泄露,整合微信与QQ好友,支持同步观影听歌。马斯克计划明年推出高度个性化AI生成游戏与影音内容。Anthropic因涉嫌大规模盗版遭音乐出版商起诉,索赔30亿美元。字节与阿里在春节前后发布新一代大模型,争夺云端主导权。

  • OpenClaw红遍硅谷 百度智能云支持一键部署OpenClaw

    近日,AI应用OpenClaw(原名Clawdbot)在硅谷爆火,被誉为“最伟大的AI应用”,能提供24小时在线服务。百度智能云已上线一键部署功能,用户通过轻量应用服务器(LS)可快速完成部署和初始化,无需复杂配置。从1月31日起,用户在官网购买推荐机型即可获得首月体验机会。部署步骤包括:创建LS实例、配置主流AI模型(如DeepSeek)、替换API密钥、启动初始化向导进入TUI模式。用户可轻松拥有个人AI助理。

  • 保姆级Clawdbot教程来了,但我还是想劝大家悠着点。

    文章介绍了近期火爆的AI本地代理工具Clawdbot(现改名Moltbot)。它是一款权限极高、主动性极强的本地AI助手,能通过聊天软件指令直接操作本地文件、处理邮件、炒股等,带来高效便利的同时也存在巨大安全隐患。文章详细说明了其功能特点(如连接多种聊天软件、拥有长期记忆、开源可自定义模型),并提供了部署教程和飞书接入方法。最后,作者提醒用户在使用前必须权�

  • 别傻傻买Mac Mini跑OpenClaw了!玩转AI代理,拼的不是显卡,是Token

    OpenClaw作为代理式AI开源框架,让AI从被动应答转向主动规划、调用工具、串联多步操作,成为数字世界的“全能助理”。其GitHub星标数已达14.3万,增长迅猛。然而,其自主决策特性也带来安全风险,如权限滥用、数据误删等。同时,OpenClaw的火爆推动了Agent普及,带来三大产业机会:一是云服务成为个人与中小企业入局的最低门槛;二是Token消耗迈入指数级增长阶段;三是Agent�

  • 为国产模型和国产芯片造“桥”:昇腾平台上的DeepSeek-OCR-2迁移实录

    文章讲述了使用智子芯元KernelCAT工具,将DeepSeek-OCR-2模型高效迁移至华为昇腾Atlas A2国产芯片的过程。传统迁移需人工处理代码依赖、环境配置和算子优化,耗时费力。而KernelCAT作为AI Agent,能自动分析代码、适配环境、生成补丁,并将通用计算逻辑替换为针对国产硬件的优化实现,最终将推理速度从15 tokens/s大幅提升至550.45 tokens/s,加速超35倍。这展现了未来开发范式:人类定义目标,AI自主解决路径,让开发者从底层适配的繁琐工作中解放出来。

  • AI日报:混元图像3.0图生图模型发布;开源AI助手Clawdbot一夜爆火;京东JoyGlance正式登陆乐奇AI眼镜

    本期AI日报聚焦多领域AI新动态:腾讯发布混元图像3.0,实现语义驱动的精准修图;开源AI助手Clawdbot单日获9000星,具备物理级执行力;京东购物智能体JoyGlance登陆Rokid眼镜,简化购物流程;苹果Siri将整合谷歌Gemini核心,预计2月发布;腾讯“元宝派”开启内测,探索AI深度融入社交场景;百度文心助手推出5亿现金红包活动,结合春节习俗;中国团队SeaArt用户破5000万,实现创意到变现闭环;上海交大发布光学垂直大模型Optics GPT,重塑光学研发模式。

  • AI助手OpenClaw爆火:一个24小时不休息的数字管家

    近日科技圈一个名为OpenClaw的个人AI代理工具走红网络。 据悉,这款工具原来名为Clawdbot,因被AI巨头Anthropic指控Clawdbot与其旗下的Claude商标相似,Clawdbot被迫更名为OpenClaw,其中Open的意思是开源,对所有人都开放。 简单来说,普通的AI只会教你如何整理文件,OpenClaw可以直接上手实操。你在电脑上部署完成后,在WhatsApp、Telegram等聊天软件里直接给它发消息,它就会回应。

  • AI日报:Anthropic发布Claude Opus 4.6;千问“春节大免单”首日火爆;腾讯推出“火龙漫剧”

    本期AI日报聚焦行业热点:阿里千问“春节30亿免单”活动火爆,其分享口令在微信内遭复制限制,腾讯元宝App也面临类似困境,引发平台间“围墙”博弈争议。360推出国内首个工业级AI漫画生产平台,提升创作效率与一致性。市监总局公布5起AI领域不正当竞争典型案例,打击仿冒、虚假宣传等行为。OpenAI发布Frontier平台,旨在打造“AI同事”生态,加速企业级智能体落地。腾讯�

  • AI日报:Kimi K2.5上线;阿里发布推理模型Qwen3-Max-Thinking;Claude 深度集成 Slack 等办公神器

    本期AI日报聚焦多款AI产品更新:Kimi K2.5上线,视觉与工具调用功能升级;腾讯搜狗输入法20.0版本全面AI化;阿里发布万亿参数Qwen3-Max-Thinking模型,性能对标国际顶尖;阿里健康AI应用“氢离子”新增动态证据定位功能;百度文心APP开启“多人多Agent”群聊内测;千问PC和网页端上线国内最强推理模型;Anthropic推出交互式应用,深度集成办公工具;蚂蚁灵波开源空间感知模型LingBot

今日大家都在搜的词: