exllamav2：一个用于在现代消费 GPU 上运行本地 LLM 的推理库

2023-09-15 10:10 · 稿源：站长之家

站长之家（ChinaZ.com）9月15日消息:exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型（LLM）的快速推理库。它能够利用最新的GPU技术，在不牺牲太多质量的情况下，以非常快的速度对巨大的神经网络进行推理。

项目地址:https://github.com/turboderp/exllamav2

这个库采用了全新的代码库和内核实现，相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型，但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法，支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别，以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力，又可以控制模型大小，适应不同的显存限制。

在测试中，利用EXL2格式，一个70B参数的模型可以在单块24GB显存的GPU上运行，一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本，新的内核和代码架构也带来了1.5-2倍的速度提升。

这个库还集成了与HuggingFace模型的兼容性，提供了文字生成的交互式示例，以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案，让更多的人可以无障碍地体验和应用LLM带来的强大能力。

总之，exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化，相信它一定会让LLM的应用变得更加普及。

核心功能:

- 支持4位GPTQ模型

- 支持新的EXL22-8比特可调量化格式

- 大幅提升的推理性能

- 易于安装和使用

- 支持HuggingFace模型转换

- 提供交互式示例

（举报）

相关推荐

关键词：

Meta说他们的 Llama 4 偏见少了！但，“虚假对等”才是真偏见

Meta公司称，相比之前的版本，他们最新的人工智能模型Llama4的政治偏见更少了。其中一部分便是通过允许该模型回答更多带有政治争议性的问题来实现这一点的。下次当你使用Meta的AI产品时，它可能会为“通过服用马用镇静剂来治疗新冠病毒”这种观点说好话！

meta ai产品 Llama4
实锤了，Llama 4重测排名掉至32名！远不及DeepSeek和Qwen

LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名，从此前的第2名，直线掉到了第32名！这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名，远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max，甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

Meta Llama 4
采用Corning® Gorilla® Glass Ceramic 2玻璃陶瓷三星Galaxy S25 Edge带来超强耐用性体验

三星电子与康宁公司宣布，即将推出的Galaxy S25 Edge将采用全新Corning® Gorilla® Glass Ceramic2玻璃陶瓷材料。这款创新材料在超薄机身设计中提供突破性防护性能，兼具时尚外观与坚固耐用特性。通过将康宁前沿玻璃科技与三星精密加工工艺相结合，该材料显著提升了屏幕盖板的抗裂能力和耐久性，同时保持高透光率。双方表示，此次合作延续了"以工程创新为本"和"以用户体验为核心"的共同理念，为高端智能手机带来更卓越的产品体验。

Corning Gorilla Glass
英伟达将首次在美制造 AI 超算、及 Blackwell 芯片

站长之家(ChinaZ.com) 4月15日消息:随着 AI 行业的蓬勃发展，英伟达位于美国的人工智能芯片和超级计算机工厂将创造数千个就业机会。科技巨头英伟达（NVIDIA）宣布，其 AI 超级计算机将完全在美国本土生产。在全球贸易战的背景下，英伟达这一举动是为了减少对海外市场的依赖，并促进美国国内的生产。英伟达确认，他们已开始在台积电位于美国亚利桑那州凤凰城的工厂生产�

NVIDIA 台积电人工智能
荐深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek发布数学推理模型DeepSeek-Prover-V2，包含7B和671B两个参数版本。该模型采用"递归+强化学习"训练方法，在MiniF2F测试集上达到88.9%通过率，解决了PutnamBench中的49道题目。关键技术包括：1) 使用DeepSeek-V3分解复杂定理生成子目标；2) GRPO算法从多个候选方案中自动学习最优解；3) 通过思维链整合非形式化推理与形式化证明。模型在AIME竞赛题和教科书题目上也表现优异，7B小模型意外在部分问题上超越大模型。论文指出该方法为通向AGI提供了正确路径，未来将扩展至IMO级别数学难题。

DeepSeek-Prover-V2 递归强化学习 AGI发展
苹果要 all in 智能眼镜？Vision Pro 2 也已准备就绪

苹果已着手开发轻便且低价的 AR 智能眼镜，同时也在开发第二代头显设备 Vision Pro。

苹果AR眼镜 VisionPro AR眼镜
“摸鱼神器”比Manus快4倍全球首个“行动浏览器”Fellou来了！

Fellou AI推出全球首款行动型浏览器Fellou，主打智能代理技术，能自动分解用户任务并跨网站执行。其搜索性能号称比OpenAI快4倍，单次任务成本仅0.03-3元。产品特点包括：1）支持登录式网站访问；2）通过沙箱环境实现多网页并行操作；3）内置智能模块自动规划任务流程；4）集成数据分析报告功能。目前提供Mac/PC版，Windows和移动版计划下半年推出。测试显示其综合评分优于Deep Research等竞品，开发者还可使用其开源框架Eko Framework进行扩展开发。

Fellou AI 行动型浏览器
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
英氏携手金靖：解锁科学养娃，轻松做“chill妈”

文章讲述了新手妈妈在育儿过程中遇到的喂养难题，以及英氏和金靖合作提出的科学喂养解决方案。核心在于"分阶喂养"理念，将6个月至3岁宝宝划分为5个阶段，根据不同发育阶段的营养需求和感知能力变化，提供针对性辅食支持。通过养花、养鱼等生活类比，生动阐释了抓住宝宝发育黄金期、循序渐进补充营养的重要性。英氏分阶辅食从1阶米粉到5阶辅食，逐步满足宝宝成长需求，帮助妈妈们实现轻松育儿。

育儿科学喂养辅食阶段
荐生成很强，推理很弱：GPT-4o的视觉短板

研究显示，GPT-4o在图像理解和推理上表现出色，能生成精美图片，但在基础逻辑测试中表现欠佳，暴露出理解、推断及多步骤逻辑处理的不足。例如，被要求画一只猫时，它先画了狗然后改为猫，但仍存在错误判断。这表明当前AI更像“精确指令机器”，需进一步优化以实现更精细的图像理解和复杂任务处理。

AI画图 GPT-4o 图像理解

热文

3 天
7天

exllamav2：一个用于在现代消费 GPU 上运行本地 LLM 的推理库

Meta说他们的 Llama 4 偏见少了！但，“虚假对等”才是真偏见

实锤了，Llama 4重测排名掉至32名！远不及DeepSeek和Qwen

采用Corning® Gorilla® Glass Ceramic 2玻璃陶瓷三星Galaxy S25 Edge带来超强耐用性体验

英伟达将首次在美制造 AI 超算、及 Blackwell 芯片

荐深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

苹果要 all in 智能眼镜？Vision Pro 2 也已准备就绪

“摸鱼神器”比Manus快4倍全球首个“行动浏览器”Fellou来了！

荐国产六大推理模型激战OpenAI？

英氏携手金靖：解锁科学养娃，轻松做“chill妈”

荐生成很强，推理很弱：GPT-4o的视觉短板

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

苹果高管称：10 年后，可能 iPhone 将不复存在！

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头