这项AI研究引入 Atom：一种低位量化技术，可实现高效、准确LLM服务

2023-11-24 09:52 · 稿源：站长之家

划重点:
- 📌 Atom 是一种低比特量化技术，旨在提高大型语言模型（LLM）的服务吞吐量，同时保持准确性。
- 📌 Atom 采用了细粒度和混合精度量化的特殊组合，以保持卓越的准确性。
- 📌 Atom 通过将服务吞吐量提高多达7.73倍，相比于典型的16位浮点（FP16）和8位整数(INT8)量化方法，从而满足了对 LLM 服务需求的不断增长。

站长之家（ChinaZ.com）11月24日消息:大型语言模型（LLM）是人工智能领域最新的引入，已经席卷全球。这些模型以其令人难以置信的能力，被人们广泛使用，无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面，这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源，因此为了增加吞吐量，GPU 资源被有效地利用，通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点，使用了 LLM 量化技术。然而，现有的量化方法，如8位权重 - 激活量化，并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的，当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题，一组研究人员引入了 Atom，一种新的方法，旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术，通过使用低比特操作符和低比特量化来减少内存使用，从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合，以保持卓越的准确性。

研究团队表示，Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示，与典型的16位浮点（FP16）方法相比，Atom 可以在保持相同目标范围内的延迟的同时，提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化，提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案，因为它保持了所需的响应时间水平，并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度，对剩余的关键激活和权重使用降低的精度，同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化，通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能，该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理（LLM）服务的集成框架。该团队共同设计了一个有效的推理系统，构建了低比特 GPU 核心，并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估，结果显示 Atom 极大地提高了 LLM 服务的吞吐量，吞吐量增益最多可达到7.7倍，同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

（举报）

相关推荐

关键词：

从繁琐交互中解放 AI赋能的三星Galaxy Z Flip7带来高效便捷体验

三星Galaxy Z Flip7以纵向折叠形态结合AI技术，打造便捷交互体验。其4.1英寸智能外屏可显示音乐、导航等信息，支持语音唤醒Bixby实现快速查询。内置AI功能涵盖即时翻译、智能收藏及内容创作辅助，如自动规划旅行路线、跨应用翻译和文档编辑。通过深度理解用户需求，这款设备以小巧机身承载智慧科技，提升生活效率与品质。

小折叠机型 AI手机三星Galaxy
卖家精灵将亮相浙江跨交会，以AI+大数据赋能华东卖家高效出海！

2025年11月25-27日，中国（浙江）跨境电商进出口交易会将在义乌国际博览中心举办。展会聚焦"专业化突围、品牌化出海、全球化布局"，设五大展区覆盖海外工厂、全链路服务、未来商业技术等，汇聚超1200家企业。依托义乌产业优势，结合AI智能选品与全域数据方案，助力卖家实现"选市场、找产品、链资源、学实操"全链路赋能，构建"买全球、卖全球"一站式跨境生态。

跨境电商进出口交易会供应链资源
【火柴AI必看】如何利用FB高效找客户：实战攻略全解析

本文介绍在Facebook高效寻找客户的五大策略：明确目标客户画像，优化账号资料与内容，精准投放广告，积极互动建立关系，提供优质服务促成合作。强调持续优化策略才能在激烈市场中脱颖而出，助力业务拓展。

Facebook营销目标客户分析社交平台优化
快速部署、投资低！海尔集成式高效机房省电一半

11月12日，第11届建筑环境与能源应用技术交流大会在福州召开，聚焦能源转型与建筑低碳发展。针对国内多数制冷机房能效偏低、存在“大马拉小车”现象，海尔智慧楼宇推出集成式高效机房解决方案，具备快速部署、投资成本低、综合省电50%三大优势，实现“即装即用”。在腾讯上海青浦数据中心应用中，该方案大幅缩短部署周期。同时，针对老旧机房改造推出即插即用诊断箱，3-7天完成数据采集与诊断，助力能效跃升。某锂电池企业应用14套方案后，年省电费超千万元，综合节能率达52%。此外，磁悬浮方案在新领域表现卓越，东江赢合新能源产业基地采用后，年省电费约2500万元。未来，海尔将持续深耕细分场景，推动行业绿色升级，让高效节能成为建筑标配。

建筑环境能源应用低碳发展
剪辑快人一步！索尼ICE-Cloud助力婚礼视频团队高效高质交付

北京二十四格文化有限公司（24Frames）成立于2004年，专注极致纪实影像美学，深耕婚礼电影、商业宣传、纪录片、综艺及艺人合作等领域。团队以真实事件与情感为核心，融合高级审美与技艺，打造富有共情力的影片，助力品牌传递深度价值。面对跨地域协作与高清素材传输等挑战，公司通过索尼与分秒帧联合推出的ICE-Cloud云平台优化流程，实现拍摄至交付的高效协同，显著�

婚礼视频拍摄纪实影像美学商业宣传片
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
低代码赋能：中小企业信息化建设的高效破局之道

在数字经济加速渗透的背景下，中小企业面临前所未有的转型压力与机遇。传统信息化建设模式因定制周期长、成本高、依赖专业团队，使企业难以快速响应市场变化。如今，低代码平台以“标准功能+低代码拓展”的组合，通过可视化配置和拖拽组件，帮助企业灵活搭建覆盖项目管理、库存管理、合同管理及预算管理等系统，显著降低技术门槛与成本。这种模式不仅满足基础需求，更以高效、低成本优势成为数字化转型的核心驱动力，助力中小企业在竞争中脱颖而出。

数字经济中小企业转型信息化系统
高效触达每一步三星Galaxy S25系列让AI更懂你

三星Galaxy S25系列通过深度整合Galaxy AI，重新定义智能手机体验。AI助手Bixby具备多模态交互能力，可理解自然语言指令、调用多应用协同完成导航等复杂任务，并支持图片解析生成摘要。实时简报整合天气、日程等关键信息，AI多截图实现智能翻译与GIF制作。影像创作方面，生成式编辑工具可一键优化构图，音频橡皮擦智能降噪，智绘人像生成艺术风格头像。AI赋能的智能拖放打破应用边界，实现跨应用信息流转。该系列以全场景AI体验提升生活效率与创作自由度。

智能手机 AI技术三星Galaxy
陈天桥在AIAS上首提“发现式智能”，宣告AI研究新范式

2025年10月27-28日，AI驱动科学研讨会（AIAS 2025）在美国旧金山举行。陈天桥发表主题演讲，首次提出“发现式智能”概念，指出这是真正的通用人工智能，强调AI应帮助人类发现未知而非替代人类。他提出实现路径需结合规模路径与结构路径，并分析大脑时间结构包含神经动力学、长期记忆、因果推理、世界模型和元认知五大能力。会议宣布投入超十亿美元建设算力集群，支持年轻科学家探索智能本质。

AI驱动科学发现式智能通用人工智能
科杰科技入选赛迪AI Infra平台市场研究报告，引领Data&AI数据基础设施新范式

近日，赛迪顾问发布《2025中国AI Infra平台市场研究报告》，全面梳理中国AI基础设施平台市场格局、技术趋势与竞争态势。报告显示，2024年中国AI Infra平台市场规模达345亿元，预计2025年将飙升至673亿元，同比增长95.1%。企业AI应用正从单点验证迈向嵌入核心业务流的深度阶段，对基础设施提出更高要求。科杰科技凭借Data&AI融合架构、湖仓一体引擎及企业级AI落地能力强势入选，位列“挑战者”象限，彰显其在Data&AI领域的领先地位。

AI基础设施市场研究报告 Data&AI融合

今日大家都在搜的词：

热文

3 天
7天

这项AI研究引入 Atom：一种低位量化技术，可实现高效、准确LLM服务

从繁琐交互中解放 AI赋能的三星Galaxy Z Flip7带来高效便捷体验

卖家精灵将亮相浙江跨交会，以AI+大数据赋能华东卖家高效出海！

【火柴AI必看】如何利用FB高效找客户：实战攻略全解析

快速部署、投资低！海尔集成式高效机房省电一半

剪辑快人一步！索尼ICE-Cloud助力婚礼视频团队高效高质交付

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

低代码赋能：中小企业信息化建设的高效破局之道

高效触达每一步三星Galaxy S25系列让AI更懂你

陈天桥在AIAS上首提“发现式智能”，宣告AI研究新范式

科杰科技入选赛迪AI Infra平台市场研究报告，引领Data&AI数据基础设施新范式

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

站长商机