首页 > 业界 > 关键词  > 语言模型最新资讯  > 正文

阿里魔搭社区开源推理引擎 DashInfer

2024-05-24 08:45 · 稿源:站长之家

站长之家(ChinaZ.com)5月24日 消息:ModelScope 推出了预训练大语言模型(LLM)推理引擎 DashInfer,支持 C++ 和 Python 语言接口,可在多种 CPU 架构上高效推理大模型。

DashInfer 采用 C++ Runtime 编写,支持连续批处理和多 NUMA 推理,能充分利用服务器级 CPU 的算力,为推理14B 及以下的 LLM 模型提供更多硬件选择。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 Kernel,以及行业标准 LLM 推理技术。DashInfer 支持主流 LLM 开源模型和 PTQ 量化技术。

微信截图_20240524084834.png

此外,引擎还提供多语言 API 接口,支持多种硬件和数据类型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等数据类型。关于模型支持,DashInfer 可以加载和序列化模型,执行推理过程,并采用 DLPack 格式的 tensor 与外部框架交互。在单 NUMA 架构下,推理引擎使用多线程和线程池进行调度;而在多 NUMA 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的模型推理

性能测试结果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能够有效提升大模型推理效率。

代码开源地址:

https://github.com/modelscope/dash-infer

推理体验地址:

https://www.modelscope.cn/studios/modelscope/DashInfer-Demo

举报

  • 相关推荐
  • 阿里通义推出语音识别大模型Fun-ASR1.5:覆盖30种语言 支持汉语七大方言体系

    阿里通义实验室近日正式推出语音识别大模型 Fun-ASR1.5。 该模型基于统一的大模型架构,单模型即可无缝覆盖30种语言、汉语七大方言体系及20余种地方口音,甚至连古诗词吟诵也能精准转写。 测试显示,在典型方言场景下,字错误率(CER)相对下降56.2%。目前已有5种方言的识别准确率突破90%,15种超过80%。

  • 面壁智能,大模型“另类”生存法则

    面壁智能,是中国大模型行业中的“另类”。 在国内外大肆流行Scaling Law(规模定律),即奉行参数越大、数据越多、算力越强,模型能力就越强的时候。 面壁智能则反其道行之,遵循“知识密度”,即用更少的参数实现更强的能力;以及“密度法则”,即在有限算力下,持续提升模型能力密度。 一个是“大力出奇迹”,一个是“以小博大”,这注定一开始面壁就与主流的�

  • 热血十年・智启未来|陈开冉:筑牢数据护城河,打造垂类大模型

    4月18日,探迹科技在广州举办十周年庆典,创始人陈开冉发表演讲,指出AI大模型正从参数竞赛转向深度推理与垂直落地。汉数科技依托高质量数据集与AI OS、HanPaaS架构,为企业提供可规模化落地的数智化转型路径。他强调2025年是智能体应用爆发元年,AI Coding将重构软件开发逻辑。面对通用模型在企业场景的瓶颈,汉数科技通过深耕行业Know-How与高质量数据,打造差异化企业级AI解决方案,以技术沉淀引领产业变革。

  • 卡德克斯参加中国国际模型博览会,以产品生态为基,以沉浸体验为核

    2026年4月17日至19日,全球FPV技术创新与生态构建者CADDX卡德克斯将参加第24届中国国际模型博览会。展会期间,CADDX将重点展示其FPV数字高清系统、影像系统、无人机系列及沉浸式互动体验板块,呈现品牌在第一视角技术与多场景应用生态上的创新成果。核心展品包括WALKSNAIL ASCENT HD与AVATAR HD两大数字高清系统,以及新近发布的AVATAR天空端GT2和Moonlight 4K夜视星光高清图传。此外,�

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 腾讯云发布 Token 防刷解决方案,精准狙击大模型黑产

    随着AI编程助手普及,开发者效率提升,但免费Token成为黑产套利目标。黑产通过批量注册、虚拟环境等手段薅取Token,用于倒卖或生成内容牟利。腾讯云天御Token防刷方案从入口验证到全链路风控,通过设备指纹识别批量注册和伪装行为,并对Token发放、流转、消耗全环节布控,确保补贴流向真实用户。该方案支持极简接入,规则秒级热更新,有效打击规模化黑产作业,保护企业营销预算与利润。

  • 东南大学发布全国高校首个纪检监察大模型“清鉴”:AI 介入执纪执法的技术标准与应用边界

    “清鉴”大模型是由东南大学研发、专门面向纪检监察垂直领域的深度学习大语言模型。该模型整合海量党内法规、国家法律及实务判例,旨在为执纪执法工作提供权威政策解读、廉政风险分析及智能业务问答等技术支持。2026年4月21日正式亮相,标志着中国纪检监察工作从传统数字化办公向以“文工交叉”为核心的智能化治理阶段转型。模型采用私有化部署与检索增强生成(RAG)技术,确保输出有法可依,并覆盖全国31个省份的地方性规范文件,可识别不同行政区域的执纪差异。其核心应用场景包括政策解读、风险分析、廉政教育、学术支持与智能问答。模型作为辅助工具,需经人工审核定性与定期数据更新,以保障其严谨性与时效性。

  • AI日报:阿里推开放世界模型Happy Oyster;Claude Opus 4.7即将发布;腾讯开源混元3D 世界模型2.0

    本期AI日报聚焦多领域进展:阿里巴巴推出开放世界模型Happy Oyster,支持实时交互;腾讯开源混元3D世界模型2.0,可一键生成可编辑3D资产;谷歌发布Gemini-TTS模型,支持近70种语言,语音更自然;蚂蚁灵波科技开源LingBot-Map,实现单摄像头实时三维重建。同时关注Anthropic即将发布Claude Opus 4.7及AI设计工具,以及湖南广电AI转型成果。安全方面,报告揭示MCP协议漏洞或致超20万台AI服务器面临风险,而OpenAI更新Agents SDK,引入沙箱功能以提升智能代理安全性。

  • GEO大模型引流助手哪个好?市场比较好的GEO搜索优化软件怎么选

    ​在流量成本持续攀升、用户搜索行为从传统引擎向AI对话快速迁移的当下,无数中小企业和站长正面临一个共同的困境:品牌搜不到、曝光上不去、传统SEO周期过长,而单纯投放广告又难以沉淀可持续的品牌资产。如何在新一轮流量变革中抢占先机?答案在于生成式引擎优化——一种以优化内容在AI生成答案中的可见性与引用率为核心的全新营销范式。正是在这一时代背景下,�

  • 与谷歌Genie 3竞争!阿里发布世界模型HappyOyster

    今日,阿里发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝),该模型基于原生多模态架构而建,支持多模态理解与音视频联合生成。 目前,HappyOyster可实现漫游(Wander)和导演(Direct)两大核心能力,用户可实时构建可互动、可演绎、可探索的AI数字世界。 用户生成的数字世界不仅能被完整保存,还能开放给其他用户进行二次创作。 据悉,该产品由阿里ATH创新�

今日大家都在搜的词: