首页 > AI头条  > 正文

华为FlashComm技术助力大模型推理提速80%

2025-05-22 15:31 · 来源: AIbase基地

在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。

首先,FlashComm 技术重点优化了 AllReduce 通信操作。传统的 AllReduce 方法就像一辆装满货物的集装箱车,不够灵活。华为团队通过智能化手段,将数据分为两部分:先进行 ReduceScatter,然后再进行 AllGather。这一重组过程使得后续的通信量减少了35%,同时关键计算量也减少到原来的1/8,推理性能提升了22% 到26%。

image.png

其次,在推理过程中,华为发现可以通过调整矩阵乘法的并行维度来减轻通信负担。在保持结果精确的前提下,三维张量被 “压扁” 成二维矩阵,结合 INT8量化技术,数据传输量骤降86%,整体推理速度提升33%。这一策略就像将大型货物装入小型集装箱,让数据传输变得更加高效。

image.png

最后,华为的多流并行技术打破了传统串行计算的局限。在 MoE 模型的推理过程中,华为团队将复杂的计算流程进行拆解和重组,借助昇腾硬件的多流引擎实现了三条计算流的精准并行。这种方法可以在一组数据进行专家计算的同时,另一组数据已经进入门控决策阶段,从而最大限度地提高计算效率。

image.png

FlashComm 的发布标志着华为在大模型推理领域的一次重大技术突破。这不仅将提升模型的推理速度,还将推动人工智能应用的发展,为科研和工业领域的 AI 应用带来新的机遇。

  • 相关推荐
  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 李想:理想VLA司机大模型 就是从动物进化到人类

    预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • itc保伦股份携多款产品亮相北京InfoComm China 2025,AI产品实力出圈!

    2025年北京InfoComm China展会圆满落幕,ITC保伦股份携多款国产化视听系统产品亮相。展会重点展示了分布式综合管理平台、融合通信系统、国产无纸化会议系统等创新成果,并搭建了运营指挥中心、智慧会议室等场景体验区。ITC全新升级的分布式V3.6版本融合AI边缘计算技术,可实时处理海量数据,广泛应用于智慧城市等领域。其COB系列LED显示屏采用先进封装技术,具有更高画质表现和防护性能。展会期间,ITC产品获得广泛关注,展现了在专业视听领域的技术实力。未来ITC将继续加强自主研发,推动行业数字化转型。

  • Funcom宣布《沙丘:觉醒》大规模测试即将开启

    《沙丘:觉醒》将于6月10日正式上线,5月10日将在伦敦与PAX East同步举行全球在线派对直播,并发放数万测试密钥。5月9日至12日将开启大规模测试,玩家可体验前20小时内容及第一章剧情。游戏基于弗兰克·赫伯特经典科幻小说改编,融合电影化叙事与开放世界生存玩法,玩家将探索厄拉科斯沙漠星球,揭开神秘预言与古老阴谋交织的故事。购买豪华版或终极版可提前5天进入游戏。开发商Funcom曾推出《流放者柯南》等知名作品。

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • 免登录AI聚合站!当贝AI宣告新一轮技术迭代:五大模型9种形态

    当贝AI宣布完成新一轮技术迭代,整合DeepSeek-R1671B和DeepSeek v3大模型,推出覆盖办公、娱乐、生活等多场景的智能解决方案。此次升级从单一工具向"超级AI中枢"转型,以隐私安全、技术普惠与场景融合为核心,新增9种模型形态,支持语音播报、附件上传、知识库等功能。平台首创"无痕模式"实现端侧数据处理,保障隐私安全;个人知识库支持本地文档智能解析。�

  • COMPUTEX 2025丨天马携多项显示技术亮相,解锁AI时代“好屏”密码

    2025年台北国际电脑展COMPUTEX以"AI NEXT"为主题,聚焦AI驱动下的终端创新。天马微电子展示了多项显示技术:1)14英寸双百色域显示屏实现AdobeRGB&DCI-P3双100%色域,165Hz高刷;2)16英寸360Hz电竞屏+10.3英寸电子纸双屏笔记本;3)16英寸1-360Hz可变刷新率Oxide屏获SID 2025最佳显示技术奖;4)23.8英寸100Hz低功耗高亮屏;5)护眼技术方案包括16英寸240Hz低反射电竞屏。此外还展出6.97英寸144Hz OLED掌机、13英寸曲面车载屏、8.07英寸Micro-LED透明显示等创新产品,覆盖电竞、办公、医疗、车载等多场景,以"超高分+超低耗+AI适配"为核心,推动显示技术革新。

今日大家都在搜的词:

热文

  • 3 天
  • 7天