exllamav2：一个用于在现代消费 GPU 上运行本地 LLM 的推理库

2023-09-15 10:10 · 稿源：站长之家

站长之家（ChinaZ.com）9月15日消息:exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型（LLM）的快速推理库。它能够利用最新的GPU技术，在不牺牲太多质量的情况下，以非常快的速度对巨大的神经网络进行推理。

项目地址:https://github.com/turboderp/exllamav2

这个库采用了全新的代码库和内核实现，相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型，但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法，支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别，以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力，又可以控制模型大小，适应不同的显存限制。

在测试中，利用EXL2格式，一个70B参数的模型可以在单块24GB显存的GPU上运行，一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本，新的内核和代码架构也带来了1.5-2倍的速度提升。

这个库还集成了与HuggingFace模型的兼容性，提供了文字生成的交互式示例，以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案，让更多的人可以无障碍地体验和应用LLM带来的强大能力。

总之，exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化，相信它一定会让LLM的应用变得更加普及。

核心功能:

- 支持4位GPTQ模型

- 支持新的EXL22-8比特可调量化格式

- 大幅提升的推理性能

- 易于安装和使用

- 支持HuggingFace模型转换

- 提供交互式示例

（举报）

相关推荐

关键词：

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力
三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

9月12日，三星家电以“AI的呵护”为主题在北京京东MALL举办线下体验展，集中展示搭载AI技术的全线产品，包括冰箱、洗衣机、电视及手机等。重点展出了荣获IFA创新奖的AI神·黑钻热泵洗烘旗舰等产品，通过五大主题展区呈现科技与艺术融合的家电新形态。观众可现场体验食材管理、衣物护理等智能功能，感受AI技术带来的生活便利。展览将持续至9月17日，并提供互动礼品。

三星家电 AI科技线下体验展
ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站，重构数据全链路，打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构，实现本地流畅运行GPT-oss-120B等大型模型，保障数据安全的同时显著提升分析效率。该方案以财务场景为例，支持多任务并行处理，将原本需1天完成的月度报表压缩至2小时，解决“数据不外发”与“高效处理”的核心矛盾。

文章搜索核心标签 AMD锐龙AI
重构想象！KAVA首款全地形车新品亮相，引领行业变革

9月26日，高端全地形车品牌KAVA发布旗舰ATV车型KAVA Strider。该车搭载1000cc发动机，性能领先行业，整车轻量化设计，重量控制在450公斤内，兼具强劲动力与灵活操控。智能系统覆盖驾控、网联和中控三大板块，支持多模式切换、蓝牙/Wi-Fi连接及专属APP，实现地图投屏、无钥匙解锁、电子围栏等功能，提升安全与便捷性。外观灵感源自剑齿虎，线条锐利，造型硬核，重新定义全地形车美学。KAVA Strider不仅是一款产品，更象征行业未来进化方向。

KAVA Strider 全地形车智能系统
三星正式向更多Galaxy设备推送Samsung One UI 8更新

三星电子正式推送One UI 8更新，为Galaxy用户带来增强的多模态AI功能，包括个性化建议、实时窗口、即时简报等智能体验。新系统优化了不同设备形态的交互，结合Knox安全架构保护隐私，并支持实时翻译、游戏辅助等实用工具。9月18日起中国用户可优先升级，年底前将扩展至更多机型。

AI功能个性化用户体验
双雄联袂登场世纪华通旗下Century Games确认参展2025东京电玩展

世纪华通旗下Century Games将携《Whiteout Survival》与《Kingshot》两款游戏亮相东京电玩展2025。展台位于Hall5-C04，面积达300平方米，设有裸眼3D巨屏展示、主题展区及丰富互动活动。两款游戏市场表现强劲：《Whiteout Survival》连续15个月位居中国手游出海收入榜首，《Kingshot》上线后收入快速增长，7月两款游戏包揽中国手游出海收入榜冠亚军。此次参展旨在向全球玩家展示中国游戏的创新实力，拓展国际合作。

世纪华通东京电玩展 SLG游戏
购机选Intel还是AMD？终结选择困难！不同场景对比避坑攻略

文章对比了英特尔酷睿Ultra 5 225H与AMD锐龙AI 9 H365处理器在大学生学习场景中的表现。测试显示，英特尔在续航和AI创作效率方面优势明显：图书馆场景下续航多50%，视频剪辑等AI任务处理速度快40%，且价格更低。结论指出，酷睿Ultra平台更适合需要长续航、高效AI应用且注重性价比的学生群体，是大学四年的明智选择。

开学装备笔记本电脑处理器选择
改变：数智零售不是从Pro到Max，而是协同才能共赢

文章探讨了AI驱动零售业数字化转型的趋势。传统从Pro到Max的硬件升级逻辑已不适用AI时代，因智能工具需多方协同。华为与天虹等企业合作，推出AI导购等方案，通过大模型能力整合商品、服务与场景，实现顾客一站式智能交互，提升购物效率。核心在于从被动标签化经营转向顾客主动探索，以数据驱动降本增效。文章强调数字化是AI应用基础，需结合真实需求才能创造价值。

数字化升级数智化工具零售场景
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking

今日大家都在搜的词：

热文

3 天
7天

exllamav2：一个用于在现代消费 GPU 上运行本地 LLM 的推理库

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

重构想象！KAVA首款全地形车新品亮相，引领行业变革

三星正式向更多Galaxy设备推送Samsung One UI 8更新

双雄联袂登场世纪华通旗下Century Games确认参展2025东京电玩展

购机选Intel还是AMD？终结选择困难！不同场景对比避坑攻略

改变：数智零售不是从Pro到Max，而是协同才能共赢

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

今日大家都在搜的词：

热文

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

苹果iOS18.7.1正式版更新发布重要安全修复

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

罗永浩替小米说公道话：海报小字是行业陋习

iPhone调休闹钟上热搜苹果客服回应：需手动设置

腾讯QQ闪传功能上线支持单文件最大10GB传输

站长商机