首页 > 业界 > 关键词  > 正文

这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM服务

2023-11-24 09:52 · 稿源:站长之家

划重点:

- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。

- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。

站长之家(ChinaZ.com)11月24日 消息:大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

image.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

举报

  • 相关推荐
  • 从繁琐交互中解放 AI赋能的三星Galaxy Z Flip7带来高效便捷体验

    三星Galaxy Z Flip7以纵向折叠形态结合AI技术,打造便捷交互体验。其4.1英寸智能外屏可显示音乐、导航等信息,支持语音唤醒Bixby实现快速查询。内置AI功能涵盖即时翻译、智能收藏及内容创作辅助,如自动规划旅行路线、跨应用翻译和文档编辑。通过深度理解用户需求,这款设备以小巧机身承载智慧科技,提升生活效率与品质。

  • 卖家精灵将亮相浙江跨交会,以AI+大数据赋能华东卖家高效出海!

    2025年11月25-27日,中国(浙江)跨境电商进出口交易会将在义乌国际博览中心举办。展会聚焦"专业化突围、品牌化出海、全球化布局",设五大展区覆盖海外工厂、全链路服务、未来商业技术等,汇聚超1200家企业。依托义乌产业优势,结合AI智能选品与全域数据方案,助力卖家实现"选市场、找产品、链资源、学实操"全链路赋能,构建"买全球、卖全球"一站式跨境生态。

  • 【火柴AI必看】如何利用FB高效找客户:实战攻略全解析

    本文介绍在Facebook高效寻找客户的五大策略:明确目标客户画像,优化账号资料与内容,精准投放广告,积极互动建立关系,提供优质服务促成合作。强调持续优化策略才能在激烈市场中脱颖而出,助力业务拓展。

  • 快速部署、投资低!海尔集成式高效机房省电一半

    11月12日,第11届建筑环境与能源应用技术交流大会在福州召开,聚焦能源转型与建筑低碳发展。针对国内多数制冷机房能效偏低、存在“大马拉小车”现象,海尔智慧楼宇推出集成式高效机房解决方案,具备快速部署、投资成本低、综合省电50%三大优势,实现“即装即用”。在腾讯上海青浦数据中心应用中,该方案大幅缩短部署周期。同时,针对老旧机房改造推出即插即用诊断箱,3-7天完成数据采集与诊断,助力能效跃升。某锂电池企业应用14套方案后,年省电费超千万元,综合节能率达52%。此外,磁悬浮方案在新领域表现卓越,东江赢合新能源产业基地采用后,年省电费约2500万元。未来,海尔将持续深耕细分场景,推动行业绿色升级,让高效节能成为建筑标配。

  • 剪辑快人一步!索尼ICE-Cloud助力婚礼视频团队高效高质交付

    北京二十四格文化有限公司(24Frames)成立于2004年,专注极致纪实影像美学,深耕婚礼电影、商业宣传、纪录片、综艺及艺人合作等领域。团队以真实事件与情感为核心,融合高级审美与技艺,打造富有共情力的影片,助力品牌传递深度价值。面对跨地域协作与高清素材传输等挑战,公司通过索尼与分秒帧联合推出的ICE-Cloud云平台优化流程,实现拍摄至交付的高效协同,显著�

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 低代码赋能:中小企业信息化建设的高效破局之道

    在数字经济加速渗透的背景下,中小企业面临前所未有的转型压力与机遇。传统信息化建设模式因定制周期长、成本高、依赖专业团队,使企业难以快速响应市场变化。如今,低代码平台以“标准功能+低代码拓展”的组合,通过可视化配置和拖拽组件,帮助企业灵活搭建覆盖项目管理、库存管理、合同管理及预算管理等系统,显著降低技术门槛与成本。这种模式不仅满足基础需求,更以高效、低成本优势成为数字化转型的核心驱动力,助力中小企业在竞争中脱颖而出。

  • 高效触达每一步 三星Galaxy S25系列让AI更懂你

    三星Galaxy S25系列通过深度整合Galaxy AI,重新定义智能手机体验。AI助手Bixby具备多模态交互能力,可理解自然语言指令、调用多应用协同完成导航等复杂任务,并支持图片解析生成摘要。实时简报整合天气、日程等关键信息,AI多截图实现智能翻译与GIF制作。影像创作方面,生成式编辑工具可一键优化构图,音频橡皮擦智能降噪,智绘人像生成艺术风格头像。AI赋能的智能拖放打破应用边界,实现跨应用信息流转。该系列以全场景AI体验提升生活效率与创作自由度。

  • 陈天桥在AIAS上首提“发现式智能”,宣告AI研究新范式

    2025年10月27-28日,AI驱动科学研讨会(AIAS 2025)在美国旧金山举行。陈天桥发表主题演讲,首次提出“发现式智能”概念,指出这是真正的通用人工智能,强调AI应帮助人类发现未知而非替代人类。他提出实现路径需结合规模路径与结构路径,并分析大脑时间结构包含神经动力学、长期记忆、因果推理、世界模型和元认知五大能力。会议宣布投入超十亿美元建设算力集群,支持年轻科学家探索智能本质。

  • 科杰科技入选赛迪AI Infra平台市场研究报告,引领Data&AI数据基础设施新范式

    近日,赛迪顾问发布《2025中国AI Infra平台市场研究报告》,全面梳理中国AI基础设施平台市场格局、技术趋势与竞争态势。报告显示,2024年中国AI Infra平台市场规模达345亿元,预计2025年将飙升至673亿元,同比增长95.1%。企业AI应用正从单点验证迈向嵌入核心业务流的深度阶段,对基础设施提出更高要求。科杰科技凭借Data&AI融合架构、湖仓一体引擎及企业级AI落地能力强势入选,位列“挑战者”象限,彰显其在Data&AI领域的领先地位。

今日大家都在搜的词: