首页 > 传媒 > 关键词  > 昇思MindSpore最新资讯  > 正文

昇思人工智能框架峰会 | MindSpore Lite混合精度推理,实现内存节省30%,助力鸿蒙翻译模型轻量化部署

2025-12-19 11:59 · 稿源: 站长之家用户

据悉,昇思MindSpore开源社区将于2025年12月25日在杭州举办昇思人工智能框架峰会。本次大会,昇思MindSpore Lite团队讲会在开发者动手实践workshop环节分享基于MindSpore Lite的端侧AI推理优化的技术实践,同时也设立开发者分组操作,欢迎来现场体验交流。本文探讨MindSpore Lite的CPU混合精度推理特性在鸿蒙翻译模型高性能推理部署。

在语言翻译算法模型中,通常需依托Transformer算法模型完成文本特征的提取与转换。针对Transformer推理内存较高、难以满足端侧多语种翻译应用部署的内存要求,基于MindSpore Lite的CPU混合精度推理方案,综合运用混合精度子图调度、IO免拷贝等关键技术,成功将鸿蒙系统内置翻译模型的推理内存优化至66MB,相较于原始100MB以上的推理内存显著降低,支撑模型在鸿蒙6.0上线部署。

背景与挑战

MindSpore Lite作为高性能推理框架,在当前AI产业化落地的背景下,为开源模型的商用部署提供了坚实的技术保障。

在NLU(Natural Language Understanding,自然语言理解)场景中,特征提取通常依赖注意力机制实现。然而,注意力模块包含大量的大颗粒矩阵乘算子,并且涉及到Cache缓存,致使推理过程内存占用较高,对于鸿蒙系统内置的基础翻译模型,内存超限成为制约特性上线的关键瓶颈。

• 内存占用:翻译模型,使用整网Float16CPU推理,精度误差不可接受,整网Float32精度正常,但在fp32下推理占用较大,需要借助混合精度特性,在降低cpu内存占用的同时减少其带来的精度损失。

为突破上述内存瓶颈,MindSpore Lite提供了基于CPU混合精度的推理模式,并融合IO免拷贝、图算融合等关键技术,形成系统性解决方案,有力保障了业务的商用化落地。

MindSpore Lite推理技术方案

1、方案介绍

MindSpore Lite推理框架提供了功能完备的转换工具及简洁易用的推理API接口。

模型转换阶段,MindSpore Lite转换工具可将MindSpore训练框架导出的MindIR模型或第三方框架导出的ONNX模型转换为MindSpore Lite格式的ms模型。离线转换过程中,工具首先将用户模型解析为标准MindSpore Lite IR格式,并在此基础上执行算子融合、子图切分、量化压缩等系列优化操作。同时,MindSpore Lite依据目标部署硬件特性,将优化后的IR对接至相应硬件后端,最终导出适用于MindSpore Lite推理部署的ms模型文件。

在线推理阶段,MindSpore Lite提供简明高效的API调用接口,通过加载转换后的ms模型,基于CPU后端注册的170+高性能算子实现,调度选取最优执行计划,最终获取推理结果。推理过程中,框架支持子图切分、IO免拷贝等关键技术,有效提升模型推理性能并保障业务部署的稳定性与功能性。

2、关键技术

CPU混合精度推理:

MindSpore Lite提供CPU混合精度推理机制,可针对单个模型内的不同算子,灵活配置Float32、Float16等不同精度计算策略,通过仅对精度敏感的算子保持高精度计算,可完成性能和精度的精细调优。以语种翻译模型为例,结合算法测试集,默认选用Float16推理,针对LayerNorm,SoftMax等数值敏感算子采用Float32推理,较整网Float32性能提升20%,内存降低30%,且精度误差输入/输出免拷贝:

调用MindSpore Lite执行推理前需要设置输入数据,推理结束后也需要读取输出结果,当输入规模变大,如翻译模型输入KVCache,会引入较大的内存拷贝时延,且存在额外内存占用。MindSpore Lite利用CPU内存共享机制,实现了模型输入/输出数据免拷贝功能,可有效降低推理时延和内存占用。以翻译模型CPU推理为例,针对多达40个输入节点,开启免拷贝功能,可提升10%的推理性能,且内存优化10%。

性能测试与验证

可以通过MindSpore Lite官网发布包中的converter_lite转换工具,将开源导出的onnx模型转换成ms的模型,然后通过MindSpore Lite官网发布包中的benchmark工具验证模型的功能与性能数据,详细的验证方法可以参考MindSpore Lite官网教程:https://www.mindspore.cn/lite/docs/zh-CN/r2.7.1/tools/benchmark_tool.html

性能测试与验证

• 针对翻译算法模型在端侧CPU硬件上的部署推理,MindSpore Lite会持续进行性能优化,降低部署内存,提升推理性能,提供更加易用的接口能力。

• 与开源社区共同适配更多更新的开源算法模型,提升推理框架的泛化性能力,与模型推理性能。

本次在杭州举办的昇思人工智能框架峰会,将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表,共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约,携手打造开放、协同、可持续的人工智能框架新生态!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

    本文阐述了陈天桥创立的MiroMind在AI领域的独特路径。文章将当前主流AI分为“文科模型”(如OpenAI,侧重语言生成与模拟)和“理科模型”(MiroMind追求的方向,强调因果推理与可验证性)。MiroMind反对单纯追求“行为主义”(图灵测试)或“功能主义”(替代工作),提出构建“通用推理引擎”的新定位。其核心是放弃“全知全能”幻想,承认模型会出错,通过引入“自我纠错”机制和外部反馈闭环来生存。目标不是聊天机器人,而是“可审计、可验证的通用问题求解器”,瞄准科研、工业等高容错门槛的B端“深水区”。文章以BrowseComp案例说明,小参数模型通过Agent交互可战胜更大模型,证明了推理能力可通过架构创新实现。最终,作者将理想的AGI比作一把精准剔除谬误的“手术刀”,而非无所不知的“神”。

  • 一切源于对长期主义的“偏执”!为什么这样构建ROBOMIND物理AI大脑

    IDC报告指出,具身智能机器人正进入以模型为中心、软件定义、硬件重构的新阶段。INDEMIND在实践中印证了这一趋势,机器人正从“能演示”走向“能长期使用、能规模复制”。为此,公司打造了ROBOMIND机器人AI大脑,其核心是提供一套“工程上站得住”的系统级方案,而非实验室参数的简单堆砌。它采用“端云协同”架构:端侧专注高确定性实时任务,通过算法优化仅需约10TOPS算力;云侧处理复杂场景理解与持续学习。这种设计旨在保障稳定可靠的同时,通过OTA赋予其“终身进化”潜力,并降低成本以适配广泛硬件平台,推动规模化落地。ROBOMIND被定位为“平台级大脑”,通过标准化接口与工具链,将核心能力模块化,帮助合作伙伴降低集成门槛,聚焦产品差异化与场景深耕。在家庭等服务场景中,稳定、可靠、不过度打扰的长期服务比炫酷演示更重要,这正是ROBOMIND重点打磨的方向。最终目标是通过系统性成本控制,让具身智能机器人从昂贵“概念产品”走向千家万户负担得起的“消费级产品”。

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • AI日报:字节发布超强视频模型Seedance2.0;小红书秘密研发AI剪辑器OpenStoryline;神秘AI模型“Pony Alpha”曝光

    本期AI日报聚焦多领域进展:字节跳动发布视频生成模型Seedance2.0,显著降低视频制作门槛;小红书研发AI视频剪辑工具OpenStoryline,支持对话式编辑;千问APP推出免单卡功能,便利年货采购;顶级域名AI.com以7000万美元成交,刷新历史纪录;神秘模型Pony Alpha因高性能免费引发关注,身份存疑;OpenAI首款AI硬件“Dime”智能耳机曝光,预计2026年发布;苹果CarPlay将支持第三方语音助手,提升交互体验;阿里新一代开源模型Qwen3.5代码现身,或为原生视觉语言模型,即将发布。

  • AI日报:蚂蚁开源大模型Ming-flash-omni 2.0;智谱GLM-5意外泄露;京东正式入局AI支付

    本文汇总了AI领域最新动态:蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,在多模态理解与生成方面表现优异;智谱AI的GLM-5模型引发关注,股价飙升;科大讯飞发布星火X2大模型,基于国产算力深耕专业场景;京东推出“AI付”语音支付产品,提升便捷与安全;DuckDuckGo上线注重隐私的免费AI语音聊天功能;阿维塔车载系统升级,融合大模型与华为智驾;ChatGPT上线保险比价应用,冲击传统中介;OpenAI升级研究工具,引入GPT-5.2驱动并新增全屏报告交互体验。

  • INDEMIND亮相联想创新加速器开放日,助推家用机器人产业生态化!

    2月5日,联想集团在北京举办“新商业创新生态路演3.0”活动,INDEMIND作为联想生态伙伴受邀出席,展示其自研家用具身陪伴机器人AI平台。该平台基于ROBOMIND物理AI大脑,实现从传感器到云端大模型的消费级机器人解决方案,具备高自由度AI交互与智能作业能力,适配养老看护、宠物陪伴、家庭安防等场景。平台采用“低算力端侧感知+全参数云端推理”协同架构,以纯视觉方案实现低成本、高泛化的家庭环境适配,端侧核心硬件成本可控在千元级。目前,INDEMIND已服务TCL、海尔、美的等行业顶尖企业,未来将持续推动具身智能技术在消费机器人领域的规模化应用。

  • OpenClaw一键本地部署,联想百应长记忆 AI 终端正式开售

    联想百应智能体全面接入OpenClaw,并推出搭载长期记忆能力的全新AI终端——联想百应NUC。该产品突破传统硬件局限,以“软件+硬件+AI服务”三位一体架构,实现OpenClaw原生适配与一键部署。通过整合长期记忆、结构化知识与主动执行能力,让AI从被动交互工具升级为可快速上手、持续成长的自主型数字生命体系,大幅降低企业与个人用户的AI应用门槛。产品支持本地数据存储与沉淀,保障隐私安全,并覆盖办公、创作等多场景需求,以极简部署、软硬服一体化优势,助力用户高效迈入智能体时代。

  • AI日报:豆包2.0将于情人节发布;MiniMax M2.5 正式发布;小米开源首代机器人 VLA 大模型

    本期AI日报聚焦多项技术进展:字节跳动火山引擎发布“豆包”系列2.0版本,旨在降低专业内容生产门槛;MiniMAX M2.5模型开启海外内测,加速全球化布局;小米开源首款机器人VLA大模型,突破物理智能延迟瓶颈;百度千帆推出集成主流大模型的AI编码订阅服务Coding Plan;智谱发布GLM-5,迈向工程构建的Agentic Ready时代;DeepSeek上下文长度跃升至1M,处理能力大幅提升;Rokid眼镜新增�

  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • AI日报:Seedance2.0紧急暂停真人参考功能;Qwen-Image-2.0发布;混元推首个产业级2Bit端侧模型

    本期AI日报聚焦行业动态:腾讯推出首个产业级2Bit端侧模型,实现小体积高性能,适用于手机等隐私敏感场景;蚂蚁阿福成为央视健康生活合作伙伴,单日健康咨询达千万次;ChatGPT免费版将引入广告,OpenAI明确隐私保护规则;字节Seedance2.0因肖像争议暂停真人参考功能;华为发布全球首个虚实融合视频模型,实现毫秒级实时交互;Cursor发布Composer1.5,性能提升显著;阿里云推出Qwen-Image-2.0,图像生成与编辑能力合一;亚马逊入局内容授权市场,微软争夺高质量数据资源。

今日大家都在搜的词: