首页 > 传媒 > 关键词  > 大语言模型最新资讯  > 正文

北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

2025-07-28 17:35 · 稿源: 站长之家用户

在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万tokens输入成本低至1元,为产业提供了高效能、低成本的解决方案。

此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的flash-attention算子,使得注意力头的参数得到更高效利用。

第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。

最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。

这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为AI大模型在企业中的应用大幅降低了成本。自去年6月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 加佳科技亮相世界人工智能大会,参与浦东重点项目签约并发布创新技术成果

    2025世界人工智能大会(WAIC)7月26日在上海开幕。加佳智云的"曦源一号"项目入选浦东新区人工智能重点项目并签约合作协议。加佳科技首次发布"数字商务智能体训练场"创新技术平台,与多家企业达成战略合作。浦东新区人工智能产业规模超1600亿元,占全市40%。加佳科技通过"曦源一号"训练场基础底座平台,为行业提供"硬件+软件+产业解决方案"一体化服务,推动AI与产业深度融合。大会期间,加佳科技展示其核心成果"数字商务智能体训练场"平台,该平台依托国产替代算力,提供全生命周期开发运营服务,降低企业AI应用门槛。加佳科技还与多家企业达成合作,加速构建开放共生的AI产业生态。

  • 金融壹账通智能客服赋能普惠金融,人工智能+助力新质生产力

    金融壹账通"小壹智能客服机器人"在第七届数字普惠金融大会上入选创新成果。该系统采用"大模型+小模型"组合策略,实现60%以上人工替代率,月均处理客户咨询数千万次。其创新点在于:1)通过自动问答与坐席辅助双模块设计,解决传统金融服务效率瓶颈;2)具备智能化运营能力,可自动生成优化方案、构建训练数据;3)已覆盖银行、保险等20余家金融机构,显著降低运营成本。该成果为中小金融机构提供了可复制的数字化解决方案。

  • 世界人工智能大会SAIL奖TOP30出炉!天鹜科技荣登榜单!

    世界人工智能大会SAIL奖TOP30榜单发布,天鹄科技凭借蛋白质大模型项目入选。该项目通过90亿条极端环境蛋白质序列数据和5亿条酶功能数据,训练出能跨越结构直接预测功能的AI模型AIACCLBIO™。该模型已服务30余家生物医药企业,成功优化30余款蛋白质,其中8款实现产业化应用。典型案例包括:将抗体稳定性提升4倍,每年为企业节省上千万元成本;优化后的急性胰腺炎检测酶成本仅为国际同类产品的10%,并实现千公斤级量产。SAIL奖是世界人工智能大会最高奖项,旨在激励技术创新和产业融合。

  • 加速AI场景落地和产业赋能 云谷“论数”之人工智能产业应用大会圆满举办

    7月16日,云谷"论数"之"AI·场景落地+产业崛起 就在浙里"人工智能产业应用大会在杭州举行。活动由浙江省工程师学会等多家单位联合主办,聚焦AI规模化落地与科技成果转化。与会专家指出,2025年是AI发展关键年,浙江将深化场景落地实践,打造"应用实践-技术优化-价值创造"闭环。企业代表分享了AI在智能制造、智慧交通等领域的应用案例,强调技术需扎根产业需求。活动还成立了大数据与人工智能专委会,未来将促进产学研协同创新,推动AI在千行百业规模化应用,助力浙江打造全球AI创新高地。

  • 智慧养老预告| 让养老更有AI!作为科技邀您共赴WAIC 2025世界人工智能大会

    2025世界人工智能大会(WAIC2025)将于7月26-28日在上海举办,主题为"智能时代 同球共济"。本届大会展览面积首次突破7万平方米,吸引800余家企业参展,展示3000余项前沿展品,涵盖40余款大模型、50余款AI终端、60余款智能机器人及80余款"全球首发"新品。12位诺贝尔奖与图灵奖得主、80余位中外院士、30余国1200位重磅嘉宾将齐聚申城,围绕大模型革命、算力新基建等十大方向展开对话。大会首次将"AI+医疗"列为核心议题,中国主导制定的全球养老机器人国际标准将在会上发布。面对中国3亿老年人口(其中失能半失能老人超4500万)的养老需求痛点,大会将探讨AI赋能智慧养老解决方案,推动"全域数据贯通→精准需求洞察→资源动态调度"闭环,重塑养老产业生态。

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 猿辅导AI大模型:技术深融与场景革新,重构学习体验

    2025年教育科技领域迎来智能化新浪潮。猿辅导集团通过自主研发的"猿力大模型"与开源推理大模型DeepSeek深度融合,构建覆盖"数据-场景-交互"全链路的AI教育生态。其技术方案已获信通院"模型开发5级"认证,成为教育行业首个获此最高评级的大模型。硬件方面推出"小猿学练机"和"小猿AI学习机",实现学习平板与智能基座结合,支持打印、情感交互等功能。校园端覆盖25省市超1000所学校,通过"AI安全驾驶模拟"等项目培养学生计算思维。编程教育领域推出支持代码实时监测的AI-Agent工具。凭借300亿条学情数据和15亿题库构建的高质量素材库,显著降低"幻觉"风险68%。目前旗下出海产品已服务100多个国家,推动中国教育科技走向国际。

  • 寒武纪:坚持以技术创新提升芯片产品竞争力

    我国"十四五"规划将人工智能列为打造数字经济新优势的关键领域,重点发展高端芯片。2024年9月,工信部等11部门印发通知,优化算力基础设施布局,支持数据中心与新能源基地协同建设。寒武纪作为智能芯片领域新兴企业,已研发多款终端和云端智能处理器产品,支持大模型训练推理及多模态AI任务,服务互联网、金融、医疗等多个行业。2025年,寒武纪将聚焦技术创新,优化芯片能效,强化算法与硬件协同研发,推动产品向大模型及垂直领域延伸,赋能传统行业智能化升级,同时探索新兴场景的算力需求。

  • 每日互动AI一体机GAI Station:安全融合大模型与大数据 高效驱动企业业务增长

    文章介绍了GAI+Station智能工作站如何解决大模型产业应用中的安全与效率难题。该产品采用"本地小模型+云端大模型"混合部署模式,确保敏感数据不出域的同时调用大模型能力,支持27+文档格式解析和8大模型能力,可快速构建企业知识库。其特色包括:1)数据安全可控,原始数据本地处理;2)深度整合业务流与数据库,提升决策效率;3)预置16大权威知识库,支持行业定�

  • 万里数据库GreatDB亮相上合组织数字经济论坛 与哈萨克斯坦人工智能发展协会签署合作协议

    2025年7月11日,上海合作组织数字经济论坛在天津开幕。论坛由国家数据局与天津市政府联合主办,丁薛祥副总 理出席并致辞。会上,万里数据库与哈萨克斯坦人工智能发展协会签署合作协议,推出GreatDB上合版数据库产品。该产品具有安全可信、生态兼容、高性能等优势,是中国首个进入上合框架的标准化数据库产品。论坛汇聚600余位中外政要、企业代表和专家学者,共商数�