首页 > 业界 > 关键词  > 正文

这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM服务

2023-11-24 09:52 · 稿源:站长之家

划重点:

- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。

- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。

站长之家(ChinaZ.com)11月24日 消息:大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

image.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

举报

  • 相关推荐
  • 【火柴AI必看】如何利用FB高效找客户:实战攻略全解析

    本文介绍在Facebook高效寻找客户的五大策略:明确目标客户画像,优化账号资料与内容,精准投放广告,积极互动建立关系,提供优质服务促成合作。强调持续优化策略才能在激烈市场中脱颖而出,助力业务拓展。

  • 陈天桥在AIAS上首提“发现式智能”,宣告AI研究新范式

    2025年10月27-28日,AI驱动科学研讨会(AIAS 2025)在美国旧金山举行。陈天桥发表主题演讲,首次提出“发现式智能”概念,指出这是真正的通用人工智能,强调AI应帮助人类发现未知而非替代人类。他提出实现路径需结合规模路径与结构路径,并分析大脑时间结构包含神经动力学、长期记忆、因果推理、世界模型和元认知五大能力。会议宣布投入超十亿美元建设算力集群,支持年轻科学家探索智能本质。

  • 低代码赋能:中小企业信息化建设的高效破局之道

    在数字经济加速渗透的背景下,中小企业面临前所未有的转型压力与机遇。传统信息化建设模式因定制周期长、成本高、依赖专业团队,使企业难以快速响应市场变化。如今,低代码平台以“标准功能+低代码拓展”的组合,通过可视化配置和拖拽组件,帮助企业灵活搭建覆盖项目管理、库存管理、合同管理及预算管理等系统,显著降低技术门槛与成本。这种模式不仅满足基础需求,更以高效、低成本优势成为数字化转型的核心驱动力,助力中小企业在竞争中脱颖而出。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 解锁需求密码,一品威客开启创意交易高效新时代

    在数字经济浪潮中,中小微企业成为创意服务需求主力军,但常因需求表达模糊导致对接效率低下。一品威客平台通过AI助手破解这一痛点:将抽象需求转化为专业描述,实现供需精准匹配。AI助手通过多轮对话梳理需求细节,结合庞大数据库推荐合适服务商,显著提升项目对接效率。实践案例显示,借助AI赋能,企业发布需求到敲定合作时间大幅缩短,交付成果更符合预期。该模式重构了创意交易信任链,推动行业向高效、精准的智能化生态升级。

  • PCEVA深度评测:忆联AE531 QLC SSD以高效稳定,从容应对多元应用场景挑战

    PCEVA对忆联首款QLC商用消费级SSD AE531进行深度评测。该产品在性能测试中全面超越同级,顺序读写达6817/5680MB/s,SLC缓存策略提供约110GB空间,60℃满载无降速。跨平台兼容性与低TCO设计满足企业降本增效需求,验证了QLC在商用场景下的稳定优势。

  • 群里怎么发接龙?用接龙管家,1分钟发布+参与,快捷又高效!

    《接龙管家》是一款高效便捷的微信小程序,专为解决群聊信息收集难题设计。用户可通过丰富模板30秒快速创建接龙,支持文本、图片、文件等多元内容收集。参与者无需下载应用,点击链接即可提交信息。发布者可实时追踪进度、一键提醒未完成人员,并自动导出Excel表格或文件压缩包。已获教育部备案认证,有效提升班级统计、签到打卡、资料收集等场景的工作效率。

  • GEO品牌监控实战指南:如何量化品牌在AI搜索中的真实影响力

    文章指出AI搜索正成为被忽视的流量新战场,多数品牌对其在AI推荐中的表现一无所知。提出GEO(生成引擎优化)概念,通过可见度百分比、曝光绝对值和竞争相对位置三个维度量化品牌在AI回答中的影响力。强调需用专业工具监控跨平台表现、识别用户真实需求、评估策略有效性,并通过国货彩妆案例展示数据驱动的优化如何提升AI推荐能见度。未来GEO将向多模态监控、情感分析和预测洞察演进,成为AI时代的品牌生存必备能力。

  • 优酷用AI解题,为多元营销场景提效

    AI浪潮持续奔涌,正以前所未有的速度渗透营销领域的每一处脉络。从创意发想到投放优化,AI技术已从概念探索走向规模化落地,深度融入营销工作的日常场景。 在这场深刻的变革中,技术所展现出的最硬核、最毋庸置疑的现实价值便是——提效,而这也精准命中了行业沉积已久的痛点。 比如在内容生产环节,过去一条TVC广告从策划到上线往往需要数月;即便是轻量级的信�

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

今日大家都在搜的词: