首页 > 业界 > 关键词  > Round最新资讯  > 正文

摩尔线程新方法优化AI交互:显存节省最多82%

2025-03-04 19:58 · 稿源: 快科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

摩尔线程新方法优化AI交互:显存节省最多82%

为此,摩尔线程提出了Round Attention,以解决这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

举报

  • 相关推荐
  • 摩尔线程与松应科技共建国产物理AI仿真生态,开启机器人训练国产化新纪元

    在全球机器人产业研发效率持续升级的背景下,端到端物理AI仿真技术已成为缩短产品开发周期、降低试错成本的关键基础设施。叠加《"十四五"机器人产业发展规划》与《新一代人工智能发展规划》的政策推动,机器人产业正面临技术自主化与规模化应用的双重挑战。我们的愿景是为美好世界加速。

  • 摩尔线程以全栈创新亮相2025中关村论坛年会:国产GPU突破大模型算力瓶颈

    2025中关村论坛年会于3月27日至31日在北京举办。作为人工智能时代的智算底座,摩尔线程在"人工智能"集群展区展示了从端到边缘到云的全栈算力产品,包括夸娥万卡智算集群、全功能GPUOAM模组、MCCXD800X2服务器和人工智能计算模组E300等重磅产品,全面呈现了以国产全功能GPU为底座的通用加速计算平台及创新成果。我们的愿景是为美好世界加速。

  • 语聊视界加持 三星Galaxy S25系列开启“可对话”的AI交互

    在智能手机不断进化的今天,用户对语音助手的期待也在悄然变化——不再只是“听懂指令”是真正成为能够理解场景、感知情绪的“沟通伙伴”。三星GalaxyS25系列全新上线的语聊视界功能,正是对这一趋势的深度回应。三星GalaxyS25系列的语聊视界,正让这一切变得触手可及。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 马斯克:将出现新方案实现自动驾驶 仅需摄像头和AI芯片

    站长之家(ChinaZ.com) 4月15日 消息:当地时间4月14日,特斯拉首席执行官埃隆·马斯克在社交媒体透露,公司即将推出基于纯AI技术的全自动驾驶(FSD)解决方案。该方案完全依赖摄像头与特斯拉自主研发的AI芯片,并由其AI软件驱动,与特斯拉长期坚持的“纯视觉自动驾驶”技术路线一致。特斯拉近期通过官方X账号发布视频,展示其德克萨斯工厂内FSD无监督技术的应用场景。视频�

  • AI科技遇上生活艺术:三星AI神 冰箱5系及9系重构厨房生活新方

    现代生活的真谛是下班后30分钟搞定健康晚餐,是食材永远新鲜如初,是科技无声融入日常却带来质的改变。当场景交互体验、健康管理、可持续发展成为用户核心诉求,家电产品则通过智慧科技进一步实现功能与情感的共生。三星以AI科技重构家电全新使用体验,使冰箱成为兼具智慧内核与人文关怀的生活伙伴,在制冷科技的理性中,注入治愈生活的温度。

  • AMD两款Z2系列掌机CPU新品蓄势待发!包含“AI优化”Z2 AI Extreme

    最新爆料显示,继今年1月在CES2025上发布三款面向掌机市场的Z2处理器后,AMD计划再推出两款新型号Z2A和AIZ2Extreme。从命名可以看出,AIZ2Extreme将是专注于AI性能的掌机处理器,预计将配备XDNA2神经处理单元,能够提供更强大的AI加速功能。它预计会配备8核Zen4架构CPU和12核RDNA3架构GPU,能够满足大多数掌机用户的基本需求。

  • 声网对话式 AI 开发套件全面开源 开启人机交互新体验

    3月20日,声网亮相2025年中国家电及消费电子博览会,正式推出对话式AI开发套件,此套件专为智能硬件开发者量身打造,旨在助力其快速构建AI实时语音交互产品,提升人机实时互动体验。声网宣布已将对话式AI开发套件软硬件全面开源。通过不断地优化实时互动体验,使AI硬件不再是机械工具是有情感交互的生活挚友,满足用户多样化需求,适应不同生活场景,推动智能硬件行业迈向人机互动新时代。

  • 三星电视接入DeepSeek-R1 AI本土化交互能力再升级

    近日,三星电视正式接入DeepSeek-R1,AI能力进一步得到强化。据悉,用户无需复杂的操作步骤,唤醒智能语音助手三星小贝,在对应的语音助手对话页面内,即可便捷体验深度思考功能。三星电视融合DeepSeek大模型矩阵,通过强化学习、蒸馏技术等提升深度思考与推理能力,使得电视能够更准确地理解用户深层的意图和需求,为用户提供更流畅、更简单、更自然的交互与服务体�

  • 谷歌A2A智能体交互协议是什么?A2A和MCP有什么关系?

    谷歌正式发布名为Agent2Agent的智能体互操作协议,并与Atlassian、Box、Cohere、Intuit、LangChain、MongoDB、Salesforce、SAP、ServiceNow、UKG、Workday等50余家科技企业达成合作,旨在将A2A打造为智能体交互领域的通用标准。此举被业界视为AI生态竞争的关键布局,其战略意义可追溯至10年前谷歌发布Kubernetes时对容器化技术的定义权争夺。谷歌此举不仅为智能体协作提供基础设施,更试图重新定义AI时代的协作范式。

热文

  • 3 天
  • 7天