首页 > 业界 > 关键词  > 语言模型最新资讯  > 正文

阿里魔搭社区开源推理引擎 DashInfer

2024-05-24 08:45 · 稿源:站长之家

站长之家(ChinaZ.com)5月24日 消息:ModelScope 推出了预训练大语言模型(LLM)推理引擎 DashInfer,支持 C++ 和 Python 语言接口,可在多种 CPU 架构上高效推理大模型。

DashInfer 采用 C++ Runtime 编写,支持连续批处理和多 NUMA 推理,能充分利用服务器级 CPU 的算力,为推理14B 及以下的 LLM 模型提供更多硬件选择。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 Kernel,以及行业标准 LLM 推理技术。DashInfer 支持主流 LLM 开源模型和 PTQ 量化技术。

微信截图_20240524084834.png

此外,引擎还提供多语言 API 接口,支持多种硬件和数据类型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等数据类型。关于模型支持,DashInfer 可以加载和序列化模型,执行推理过程,并采用 DLPack 格式的 tensor 与外部框架交互。在单 NUMA 架构下,推理引擎使用多线程和线程池进行调度;而在多 NUMA 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的模型推理

性能测试结果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能够有效提升大模型推理效率。

代码开源地址:

https://github.com/modelscope/dash-infer

推理体验地址:

https://www.modelscope.cn/studios/modelscope/DashInfer-Demo

举报

  • 相关推荐
  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

    ​不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

  • 腾讯拟收购韩国游戏开发商Nexon 后者旗下拥有DNF等游戏

    近日,游戏行业传来一则重磅消息,腾讯拟对韩国知名游戏开发商Nexon展开收购行动。Nexon作为韩国游戏界的领军企业,在游戏开发领域拥有深厚的技术积累和丰富的产品线,旗下多款游戏在全球范围内都拥有庞大的玩家群体。

  • 火山引擎Data Agent体验中心正式上线!企业级AI数据专家触手可及

    火山引擎数智平台开放企业级数据智能体Data Agent体验中心,用户可零门槛体验"企业数字专家"在数据垂直领域的深度能力。该产品定位为"企业第一位AI数据专家",已上线股票分析、经营复盘、营销策略等6大场景应用。通过"数据+知识"融合、人机协同等核心价值,突破传统分析工具边界,实现从描述性分析到行动建议的跨越。作为L3级智能体,它能将企业内外部信息转化为可量化数字资产,显著降低数据使用门槛,提升决策效率。Gartner预测到2028年至少15%的日常决策将由AI自主完成。火山引擎此举标志着企业数据应用正式进入"动态智能体"时代。

  • 阿里云全栈AI技术引擎驱动SaaS企业全球化升级 构建出海新范式

    全球SaaS市场正以16.4%的年复合增长率迈向万亿规模,中国企业引领的智能化升级正在改写行业全球化叙事。阿里云发布"全栈AI+全球化"技术体系,通过端到端技术栈重构打造可扩展、低门槛的全球化智能基座,释放技术红利。通义千问大模型通过参数效率优化突破AI规模化应用的经济性瓶颈,支持119种语言适配不同市场。e签宝推出行业首个智能合同Agent,实现合同全生命

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • AI营销席卷中东,Infinix和Snapchat首个AI营销合作如何在当地实现破圈?

    开年以来,AI 图片赛道迎来一轮小高潮。今年3月,在我们统计的月访问量超200万的 Web 端 AI 图片产品中,有45款产品访问量呈现环比上涨,最高增幅超过600%。这些爆款背后的共同特征,是一股席卷社交平台的“吉卜力风”。 回顾2022年至今几轮 AI 爆款产品(如 Lensa、妙鸭相机、黏土滤镜、吉卜力),其流量爆发的逻辑始终贯穿着四大共性:操作门槛极低、个性表达鲜明、用户�

  • 火山引擎究竟想要什么?

    火山引擎的名字里没有云。 这件事在以前是个需要解释的事情。2020年底,字节内部的关键决策会议上,正式决定让火山引擎对外提供服务、进入真实的市场,而在这个最初的会议上,字节希望这个技术平台不只是“又一个云计算厂商”。于是干脆从名字就不带云。 在火山引擎进入这个市场的时刻,云计算正处于焦灼的互卷阶段。这是一个需求旺盛的市场,也是一个充满诱惑

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • 红果做社区,与小红书终有一战

    小红书与红果,走到了“短兵相接”的阶段。 自5月20日正式上线以来,小红书独家首发的短剧《痴人说爱》已超过7516万次播放,两周讨论曝光破2亿,打破了站内短剧记录。尽管与红果短剧4天播放量破10亿的记录相比仍有差距,但已展现出不小的潜力。 在小红书加码短剧想要分红果“蛋糕”的同时,红果悄然测试的社区功能,则昭示着两者之间的战线正在双向延伸。 近日,