首页 > 业界 > 关键词  > 语言模型最新资讯  > 正文

阿里魔搭社区开源推理引擎 DashInfer

2024-05-24 08:45 · 稿源:站长之家

站长之家(ChinaZ.com)5月24日 消息:ModelScope 推出了预训练大语言模型(LLM)推理引擎 DashInfer,支持 C++ 和 Python 语言接口,可在多种 CPU 架构上高效推理大模型。

DashInfer 采用 C++ Runtime 编写,支持连续批处理和多 NUMA 推理,能充分利用服务器级 CPU 的算力,为推理14B 及以下的 LLM 模型提供更多硬件选择。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 Kernel,以及行业标准 LLM 推理技术。DashInfer 支持主流 LLM 开源模型和 PTQ 量化技术。

微信截图_20240524084834.png

此外,引擎还提供多语言 API 接口,支持多种硬件和数据类型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等数据类型。关于模型支持,DashInfer 可以加载和序列化模型,执行推理过程,并采用 DLPack 格式的 tensor 与外部框架交互。在单 NUMA 架构下,推理引擎使用多线程和线程池进行调度;而在多 NUMA 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的模型推理

性能测试结果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能够有效提升大模型推理效率。

代码开源地址:

https://github.com/modelscope/dash-infer

推理体验地址:

https://www.modelscope.cn/studios/modelscope/DashInfer-Demo

举报

  • 相关推荐
  • 独家对话adidas:打破成交纪录,找到中国市场的增长“心法”

    中国运动户外市场正经历前所未有的高速增长,据行业预测,2025年中国运动服饰市场规模将突破6000亿元,年增速超10%,运动户外领域的服饰、鞋类以及垂类用品等非标产品不断推陈出新,两个变化正在悄然影响整个行业:一是行业再也无法凭借“一个爆款、多年不愁”的打法通吃市场,品牌既要做优产品、又要做精营销,才能持续满足和触达消费者;二是运动户外产品的高频次�

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • Linux中国开源社区官网正式宣布关闭!域名未知原因被冻结

    快科技4月16日消息,近日,国内知名第三方开源社区Linux中国开源社区官网正式宣布关闭,其实在2024年社区就已经停止更新,但官网仍可以访问。不过从2025年3月20日开始,Linux.cn域名被注册商设置为clientHold(永久冻结)状态,这意味着该域名在DNS系统中被禁止解析、访问、使用、变更和交易,导致网站完全无法使用。虽然这个域名仍然在Linux中国站长账号下,但由于clientHold状态,这个域名当前已经完全无法使用。至于clientHold状态的原因,Linux中国站长解释称域名注册商按上级要求设置为冻结状态,域名注册商无权进行解封,其实到现在

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 阿里千问3登顶全球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。