首页 > 业界 > 关键词  > exllamav2最新资讯  > 正文

exllamav2:一个用于在现代消费 GPU 上运行本地 LLM 的推理库

2023-09-15 10:10 · 稿源:站长之家

站长之家(ChinaZ.com)9月15日 消息:exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型(LLM)的快速推理库。它能够利用最新的GPU技术,在不牺牲太多质量的情况下,以非常快的速度对巨大的神经网络进行推理。

image.png

项目地址:https://github.com/turboderp/exllamav2

这个库采用了全新的代码库和内核实现,相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法,支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别,以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力,又可以控制模型大小,适应不同的显存限制。

在测试中,利用EXL2格式,一个70B参数的模型可以在单块24GB显存的GPU上运行,一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本,新的内核和代码架构也带来了1.5-2倍的速度提升。

这个库还集成了与HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案,让更多的人可以无障碍地体验和应用LLM带来的强大能力。

总之,exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化,相信它一定会让LLM的应用变得更加普及。

核心功能:

- 支持4位GPTQ模型

- 支持新的EXL22-8比特可调量化格式

- 大幅提升的推理性能

- 易于安装和使用

- 支持HuggingFace模型转换

- 提供交互式示例

举报

  • 相关推荐
  • 详细攻略!Ollama本地部署DeepSeek,如何用贝锐花生壳远程访问?

    本篇内容将手把手带你使用OllamaOpenWebUI本地部署DeepSeek,并借助贝锐花生壳内网穿透,轻松实现安全远程访问,让你随时随地畅享个人专属AI!相比直接将服务部署在云端或使用端口映射进行远程访问,贝锐花生壳内网穿透不仅让远程连接更便捷能有效防止未经授权的用户擅自访问本地部署的Ollama,全面保障AI资源的私密性与安全性!通过以上这些步骤,我们不仅成功实现了DeepSeek的本地私有化部署借助贝锐花生壳轻松解锁了远程访问,整个过程简单高效,无需复杂操作,也无需依赖云服务器,就能打造专属的AI助手。

  • AI日报:可生成汉字!智谱开源文生图模型CogView4;大模型工具Ollama存在严重漏洞;腾讯元宝下载量超DeepSeek

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱发布首个能生成汉字的开源文生图模型CogView42025年3月4日,北京智谱华章科技有限公司推出了CogView4,这是首个支持生成汉字的开源文生图模型,具备强大的双语输入和图像生成能力。他强调了完善人工智能终端标准体系的重要性,呼吁制定以用户体验为导向的智能化分级标准,并强化国际国内标准的有效衔接。

  • GPU运行最强模型!谷歌推出Gemma 3:单卡可跑27B超o3-mini

    谷歌发布了其最新的开源模型系列Gemma3,并宣称这是世界上最好的单加速器模型”。即便在参数量最大的27B版本中,仅需一张H100显卡即可实现高效推理。ShieldGemma2为图像安全提供了现成的解决方案,能够输出三类安全标签:危险内容、色情内容和暴力内容,帮助开发者快速构建安全的AI应用。

  • MWC 2025:浩鲸科技董事长、总裁鲍钟峻接受VanillaPlus专访

    MWC2025盛大启幕,浩鲸科技董事长、总裁鲍钟峻接受VanillaPlus专访,针对AI给电信行业带来的影响及推动全球创新发表看法。鲍钟峻表示,从电信即服务平台到优化光纤部署、国家云基础设施,再到为通信服务提供商和企业应用人工智能,浩鲸科技致力于消除行业摩擦,加速新流程、服务和应用的引入。我们的愿景非常清晰:进一步扩展合作伙伴关系,深化全球市场的布局,并创造更多的合作机会,共同推动全球范围内的创新与增长。

  • 从 ID.2all 开始,大众所有新车将重新采用“物理按键”

    大众汽车致力于转向使用触摸屏,但如今,他们又将在其所有车辆上重新采用物理按键。在接受《英国汽车杂志》采访时,这家德国汽车巨头的设计总监安德烈亚斯・明特称,取消这些物理按键的决定是“一个错误”。从2026年1月1日起,在欧盟销售的新车如果想要获得欧洲新车评估计划的最高安全评级,其喇叭、挡风玻璃雨刮器、转向灯、危险警示灯和紧急呼叫功能必须配备物理按键或开关。

  • 英伟达利润大增80% 黄仁勋感叹:Blackwell需求惊人

    据报道,英伟达今日公布了该公司的2025财年第四财季及全年财报。第四财季营收达到393.31亿美元,同比增长78%,环比增长12%;净利润为220.91亿美元,同比大幅增长80%。这一数据进一步凸显了英伟达在AI芯片市场的领先地位及其在数据中心领域的强劲竞争力。

  • DeepSeek第二炸:开源首个用于 MoE 模型训练通信

    今天是DeepSeek开源周第二日,一早,DeepSeek如约就放出了开源代码库DeepEP王炸。DeepEP是首个用于MoE模型训练和推理的开源EP通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。6、深度优化场景针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;此外,它还支持SM数量动态控制,平衡不同任务的吞吐量需求。

  • 《Killing Floor 3》延期

    该作原定本月25号与玩家见面,但封测结果显示游戏无法令粉丝满意,导致开发团队临时决定游戏跳票至下半年:在广泛收集并讨论封测反馈意见后,我们意识到目标并未达成。KF3不仅要成为该系列突破性作品,同时也必须保有粉丝所熟悉并热爱的核心体验”,开发单位Tripwire在声明中称。现在最大的问题是游戏上市日期,下半年所有重要发布都要与《GTA6》拉开距离,新战地夹在GTA与CoD之间很难办。

  • 全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

    【新智元导读】由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!这一成就,再次让AI社区轰动。博客地址:https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model开源项目:https://github.com/turningpoint-ai/VisualThinker-R1-ZeroDeepSeek-R1的独特推理能力,能成功扩展到多模态推理领域吗?UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。在台湾大学获得硕士学位,导师是Chih-JenLin教授。

  • 谷歌:我们的Gemma 3,单GPU便能媲美Deepseek

    在AI领域,“经济效益”一直是热门话题,在DeepSeek实现了令人瞠目的规模经济效益之后,谷歌也不甘落后地加紧了步伐。谷歌发布了他们最新的开源大型语言模型Gemma3。需要注意的是,竞争对手使用的H100芯片数量都是谷歌的估计,Deepseek仅披露了一个使用1814块英伟达性能稍弱的H800GPU芯片来作为R1模型提供服务的例子。