首页 > 业界 > 关键词  > Round最新资讯  > 正文

摩尔线程新方法优化AI交互:显存节省最多82%

2025-03-04 19:58 · 稿源: 快科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

摩尔线程新方法优化AI交互:显存节省最多82%

为此,摩尔线程提出了Round Attention,以解决这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

举报

  • 相关推荐
  • 外卖持久战:餐饮商家如何找寻营销新方法?

    2025年外卖行业迎来了新一轮激战。自京东以"免佣金+骑手社保+百亿补贴"的组合拳高调杀入外卖市场后,淘宝迅速将"小时达"升级为"淘宝闪购",美团宣布千亿投入计划,饿了么跟进百亿补贴……各平台上演了一场贴身肉搏。 如今,这场由京东引发的市场争夺战已逐渐回归理性,平台间的竞争,正逐渐转向更可持续的运营能力比拼。对餐饮连锁品牌而言,

  • 首个满级QQ即将诞生:活跃天数超182年 即将 4 个皇冠

    据悉,全球首个满级QQ账号即将诞生,该账号QQ等级即将达到4个皇冠,其拥有者网名为“爱芥末”,目前等级已达255级,拥有3顶皇冠、3个太阳、3盏月亮、3个星星。令人意外的是,这个账号是“爱芥末”继承自其父亲的。自2000年起,该账号就活跃在QQ平台上,账号拥有者还开通了QQ所有会员,预计下个月QQ等级将实现满级。

  • 夫妻相爱7年女方胖了182斤 丈夫回应:自己开心就好

    ​近日,贵州遵义一对夫妻的体重变化引发了网友的广泛讨论。据了解,这对夫妻已携手走过七个年头,而在这七年里,妻子的体重发生了显著变化,从最初的168斤增长到了如今的350斤,其体重最高时甚至达到了480斤。目前,夫妻俩正满怀期待地迎接他们的第二个孩子,二胎孕期已四个多月。 面对外界对于妻子体重变化的质疑和关注,丈夫在接受采访时表示,他并不在意别人

  • 李未可AI眼镜新品发布会:零级智能体开启人机交互新纪元

    李未可科技发布2025年度新品,推出三款AI智能眼镜及专属大模型"WAKE-AI任务式交流系统"。核心亮点是"零级智能体ZeroAgent",通过多智能体协同实现任务分发与动态决策,打破传统硬件依赖单一AI功能的局限。新品包括轻量化设计的LAWK City系列(续航14小时,仅重23-27克)和旅拍版LAWK View(支持20种语言翻译)。公司联合米奥兰特国际会展瞄准跨境商务场景,并与博士眼镜达成战略合作,推动AI眼镜线下体验。创始人茹忆强调"AI定义硬件"理念,预测未来十年传统眼镜将全面智能化,轻量化、长时佩戴与场景适配是竞争核心。

  • 在每一次升级中探索新的可能 ——张杰“开往1982”鸟巢演唱会摄制幕后

    张杰"开往1982"鸟巢演唱会创下12场连演新纪录,采用索尼"电影生态圈"概念实现电影级制作。iPLUS团队运用41台索尼设备(含11台CineAltaV2电影机、6台HDC-F5500广播级摄像机),通过S-Log3统一色彩空间,兼顾现场LIVE与电影化制作需求。创新采用电动升降台解决LED屏穿帮问题,并首次在演唱会中实现空中吊装音响系统与飞猫设备的协同运作。团队历时一个月完成极端天气下的稳定拍摄,其"广播+电影"融合方案为行业提供了技术范本,标志着演唱会制作向更高影像品质迈进。

  • 8GB显存够用吗!AMD高管回应RX 9060 XT 8GB:大部分玩家不需要更多

    快科技5月25日消息,AMD在2025年台北国际电脑展上,发布了新一代Radeon RX 9060 XT显卡,提供8GB和16GB两种显存版本。不过8GB显存版本引发了一些玩家的不满,尤其是在2025年,8GB显存在1080p下玩一些有些都显得捉襟见肘。对此,AMD资深架构师兼游戏解决方案和游戏营销首席架构师Frank Azor进行了回应。Frank Azor表示,大多数玩家仍然在1080p分辨率下玩游戏,而且他们主玩电子竞技游戏,根本不需要超过8GB的显存,换言之,8GB显存对于这些玩家来说已经绰绰有余。他表示,如果没有市场需求,AMD根本不会推出它,他还指出,如果用户觉得8GB?

  • 快手618购物节迎开门红 泛货架商品卡GMV同比增长282%

    数据显示,对比 2024 年 618 大促开门红首日,快手电商泛货架商品卡GMV同比增长282%,搜索GMV同比增长753%,直播间GMV同比增长92%。

  • 苹果WWDC技术盛宴开启,微美全息(WIMI.US)“AI+AR”交互技术加速突破

    苹果WWDC2025开发者大会将于6月10日-14日举行,重点聚焦AI与AR技术革新。iOS26将迎来重大设计更新,带来透明轻盈的视觉体验和AI新功能。Vision Pro系统升级后组件更立体,支持更多自定义功能。苹果计划2026年底推出首款AI智能眼镜,加速布局可穿戴设备。同时,微美全息等企业也在推进"AI+AR"技术融合,通过多模态交互系统提升智能眼镜的精准性。谷歌则通过Android XR平台布局AI眼镜领域。WWDC2025还将发布iPadOS26、macOS26等新系统,展现苹果在科技领域的持续创新。

  • 创造丰盛发布速建技术:2小时搭住房,馨月老师见证灾后新方案

    甘肃积石山地震灾区采用创新模块化住房技术,2小时即可完成组装,为灾民提供临时住所。这种"折叠式钢结构+气凝胶隔热层"的房屋具备保温、抗震、隔音功能,同时通过居民参与壁画创作提升心理重建效率40%。团队还开发"气候适应性社区工具包",已在东南亚6国23个灾区推广。此外,研发的"管网泄漏预警算法"使杭州爆管事故率下降67%,修复时效缩短至45分钟。馨月老师团队通过三维语音技术收录132位亲历者口述历史,被哈佛纳入全球灾害叙事研究。这些创新不仅解决物理重建,更注重保留社区文化基因,为全球灾后重建提供新思路。

  • 冰箱里的肉最多能“冻”多久 专家:各有不同

    近日,关于冰箱中肉类储存时间的问题引发了广泛关注。不少家庭习惯将肉类存放在冰箱冷冻室,以延长其保质期,但冰箱并非保险箱,冷冻也并非一劳永逸的保鲜方式。专家指出,不同肉类的安全储存期限存在显著差异,超过一定时间后,肉类的安全性和口感都会大打折扣。 据了解,猪肉、牛肉等红肉在冷冻条件下一般可以保存10至12个月,而鸡肉等白肉则可保存8至10个月�