首页 > 业界 > 关键词  > Round最新资讯  > 正文

摩尔线程新方法优化AI交互:显存节省最多82%

2025-03-04 19:58 · 稿源: 快科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

摩尔线程新方法优化AI交互:显存节省最多82%

为此,摩尔线程提出了Round Attention,以解决这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

举报

  • 相关推荐
  • 谷歌推出Gemini Go:2GB内存手机也能跑大模型

    谷歌为Android Go系统推出全新Gemini Go AI助手,专为内存超2GB的低配设备设计。该精简版大模型取代Google Assistant Go,用户无需下载独立应用,长按Home键或电源键即可唤醒。它支持拨打电话、发短信、查询地图、搜索餐厅、设置闹钟等日常功能,还能上传文档和照片以提供更自然的对话体验。目前,Gemini Go已开始分阶段向符合条件的设备推送。

  • MOVA T1 Station擦窗机器人发布:打造更安全、更智能的高端窗面清洁体验

    MOVA发布旗舰擦窗机器人T1Station,针对高空擦窗的安全、深度清洁与智能化进行革新。产品采用基站式安全架构、恒湿热擦系统、AI路径规划等技术,搭载10000Pa吸力、多功安全基站、恒湿热擦系统及四只弹力边角清洁刷,实现三重安全保障。支持110分钟续航、边充边用及App多模式控制,推动擦窗机器人向高端化、专业化发展。

  • 京东云率先上线MiniMax M3:显著提升模型推理吞吐

    MiniMax M3正式上线,京东云JoyBuilder模型开发平台已第一时间接入MiniMax M3模型并同步开放服务。 依托京东云自研推理框架,JoyBuilder采用了PD分离部署、KV Cache缓存、投机采样等先进推理优化技术,显著提升了模型推理吞吐量与响应效率。 MiniMax M3在编程、智能体等专业任务上达到了前沿水平。其采用全新的MiniMax稀疏注意力架构(MSA),最高支持100万token的超长上下文。作为一款�

  • 教你如何用AI对话问题挖掘,输入核心关键词,智能推荐热门提问词

    2026年,AI已普及但存在“围城现象”:外人觉得AI万能,内行人却因Prompt无法击中用户痛点而苦恼。文章指出,营销和内容创作的关键是挖掘用户真实搜索意图,而非凭“我觉得”闭门造车。AIBase平台的“AI对话问题挖掘”工具能解决三大难题:精准定位热门提问词、整合全平台数据打破信息孤岛、用热度指数辅助决策。通过该工具获取高价值提问词作为Prompt输入AI,可产出爆款内容,提升营销ROI。

  • 面壁智能BitCPM-CANN:端侧AI的内存革命

    大模型决定了“脑容量”,定义了模型的知识上限与智能天花板。 低比特技术,则是让大模型“小而强”的魔法,它重新排列了每一个“脑细胞”的密度。这条路指向两个明确的方向:要么在有限的内存与显存资源下,塞进参数规模更大的模型;要么让同样大小的模型,跑得更快、更省电。 低比特模型一直处于小众赛道,直到今年内存价格一年涨了5倍,倒逼整个大模型行业寻�

  • 从底层智算算力到顶层AI应用,移动云为数字中国打造智慧“引擎”

    随着AI技术发展,大模型进入价值落地阶段,推动智算服务需求激增和云计算市场新增长。2025年全球IaaS市场保持增长,中国市场规模达469亿美元。移动云作为云计算“国家队”,加速智算中心建设,突破核心技术,构建全栈智算服务体系,实现从算力到智能应用的全链路覆盖。其智算总规模达92.5EFLOPS,网络能力强大,通过GPU云主机等产品满足多元化需求,推动智算服务规模化、普惠化发展,助力千行百业数智化转型。

  • 财能AI中心重磅发布! 以能·管·选·伴四大引擎,开启财务智能化新时代

    2026年全球AI产业迎来转折点,新一代智能体崛起标志着技术从大模型能力突破转向人机协同组织重构。财务作为企业数据核心,正加速从后台核算向决策支撑、价值创造的战略引擎跃迁。然而,财务从业者普遍陷入路径模糊、落地困难的结构性困境:业财数据壁垒森严、通用大模型难以穿透复杂业务逻辑、个体自研试错成本高、经验孤岛导致行业低水平重复内耗。基于此,财�

  • AI 驱动公域增长 小鹅通 GEO 增长引擎正式上线

    用户获取信息方式从主动搜索转向AI推荐,品牌曝光逻辑被重构。商家面临私域流量增长空间有限、获客成本攀升的挑战,需构建系统化公域增长体系。小鹅通GEO增长引擎正式上线,提供内容生产、媒体分发、效果验证一体化方案,助力品牌在多公域触点获得稳定曝光。产品涵盖内容中心、媒体资源、效果测试模块,形成闭环管理,帮助商家在AI时代夯实公域竞争力。

  • ​拒绝被AI时代抛弃,这套GEO优化秘籍让你全网爆单!

    GEO(生成式引擎优化)是AI时代的新概念,旨在让品牌或内容高频出现在AI回答中。随着用户从搜索引擎转向ChatGPT等AI工具提问,GEO应运而生。其核心是理解AI的思考逻辑,挖掘用户与AI对话时的真实提问习惯,而非盲目堆砌关键词。通过AIBase等工具,可精准定位用户意图、整合关键词生态,并辅助决策。拥抱GEO优化,是内容创作者在AI时代抢占流量、实现躺赚的关键。

  • ​AI聊天机器人渐成企业新门户,对话层安全防护不能缺席

    截至2025年底,中国生成式AI用户规模达6.02亿,同比增长142%。AI聊天机器人已嵌入数亿人日常,但近期发生用户通过AI预约线下服务却无效的案例,暴露了AI幻觉和数据泄露风险。国际案例显示,提示词注入、数据泄露和误导性回复是三大风险向量。企业需在对话层两端加强防护,Check Point WAF通过双层AI架构将防护延伸至对话层,实现毫秒级响应,覆盖百余种语言,确保数据安全与合规。

今日大家都在搜的词: