首页 > 业界 > 关键词  > 正文

这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM服务

2023-11-24 09:52 · 稿源:站长之家

划重点:

- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。

- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。

站长之家(ChinaZ.com)11月24日 消息:大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

image.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

举报

  • 相关推荐
  • 交通组网不用专线?蒲公英异地方案降本又高效

    文章介绍了智慧交通建设中远程协同与实时互联的重要性。贝锐蒲公英基于自研SD-WAN技术,推出异地组网方案解决交通设备分散部署、无公网IP、专线成本高等网络难题。其X5Pro企业路由器支持多网协同,实现秒级组网和智能路径选择,确保数据传输稳定。方案还具备毫秒级数据回传能力,提升交通调度效率90%,并通过国密加密和等保三级认证保障数据安全。该方案实现了动态�

  • 这届年轻人反向带娃有多香 育儿轻松又高效

    ​如今,育儿领域正刮起一股“反向带娃”的新风潮,展现出新一代年轻人独特的养娃智慧。当下,这届年轻人以别具一格的方式开启了育儿新篇章。在商场里,时常能看到这样的场景:孩子因得不到心仪玩具而哭闹不止,年轻的父母们不再像传统那样耐心哄劝,而是淡定自若地掏出手机,甚至有父母直接躺地上陪孩子一起“哭”,以一种幽默又独特的方式应对孩子的情绪。 �

  • 网友称赞雨天给顾客电瓶车搭雨披 胖东来:一直有这项服务

    近日,有河南许昌网友发布视频称,大雨来临前,胖东来工作人员给顾客的电动车都盖上了雨披,引不少网友点赞。 今日,胖东来工作人员回应称,一直有这项服务,商场会根据天气来置备雨披。 不过雨披也是有限的,只能说尽量给每辆车都盖上,有时候暴雨来了,还是免不了有车辆会被淋湿。

  • 全场景高效处理 三星Galaxy S25系列用AI驱动效率跃升

    三星Galaxy S25系列通过Galaxy AI深度赋能,带来革命性智能体验。其搭载的Bixby语音助手具备多模态感知能力,可理解语音指令、分析画面内容和文档信息,实现更自然的人机交互。"语聊视界"功能能识别场景物体并讲述背景故事,还能通过表情分析用户情绪。AI多截图功能可智能预测用户需求,自动提供翻译或GIF制作选项。跨应用执行能力打通信息壁垒,如自动提取日程地址直接导航。智能拖放功能实现跨应用数据流转,大幅简化操作步骤。创作方面提供生成式编辑、个性化滤镜和智能人像等工具,视频创作支持智能降噪功能。Galaxy S25系列通过AI深度整合优化,让繁琐流程变得简单高效,满足从创意工作者到商务人士的多样化需求,成为以AI为核心驱动的移动效率中枢。

  • 金融 / 汽车行业争先引入!Testin 云测 AI 测试方案成产业刚需

    文章概述了AI技术正在重塑软件测试行业格局,重点介绍了Testin云测在AI测试领域的创新成就。该公司凭借自主研发的Testin XAgent智能测试系统,实现了自然语言生成测试脚本和智能诊断分析两大技术突破,大幅提升测试效率。其解决方案已成功应用于金融、汽车等行业,助力企业数字化转型。Testin云测通过构建覆盖全生命周期的智能质量保障体系,推动软件测试从成本中心向价值创新引擎转型,引领行业迈向智能化新时代。

  • 不爱上班可能是一种病:背后存在焦虑、抑郁等问题

    据媒体报道,有网友发文称,秦皇岛一家医院挂有不爱上学门诊”、不爱上班门诊”的牌子。 该院透露,这个门诊是在患者建议下开设的,有的人不爱上班其实背后存在焦虑、抑郁等问题,但直接说焦虑症、抑郁症,患者可能有病耻感,所以我们设立了一个不爱上班门诊”。 工作中心生乏力、疲惫、情绪不稳定、人际关系不好、感觉上班很痛苦,这些表象背后有很多复杂原�

  • 准确率92%!苹果新模型可通过行为模式预测怀孕

    据媒体报道,苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院,在健康预测领域取得重大突破,推出基于行为数据的可穿戴模型WBM(Wearable Behavior Model)。 这项研究标志着健康监测从传统生物指标(如心率、血氧)向行为数据分析的拓展,为疾病预测提供了全新视角。 研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型,使其能够从步数、活动能力等高层次行为

  • 忆联 Docker+MySQL 流控方案:打造安全高效存储底座,释放 AI 极致性能

    文章探讨了在AI时代背景下,基于Docker部署MySQL数据库的高效解决方案。通过Docker容器化技术,MySQL实现了灵活部署、资源高效利用和稳定隔离性,成为AI应用的首选数据库方案。测试结果显示,采用PCIe5.0企业级SSD配合Namespace技术和QoS优化策略,能精准控制性能偏差在2%以内,在混合读写场景下更可控制在1%以内。该方案显著提升了存储资源管理效率,为AI应用提供稳定可靠的数据存储支持,同时降低企业TCO成本,推动数据价值释放。

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。

  • 运德开新仓赋能跨境旺季,助力卖家开启高效物流!

    运德供应链宣布美国印第安纳州黎巴嫩市的中美二仓正式投入运营。这座17万平方英尺的现代化智能仓储中心配备先进WMS系统,可提升订单处理效率20%-30%,满足旺季爆发式增长需求。仓库地处美国物流黄金走廊,49分钟可达机场,高效覆盖中西部及东海岸市场。延续"全链路自营"优势,提供24小时极速出库、一件代发、FBA头程转运等特色服务。这是运德在美国的第五大仓储群,目前其本土自营仓库已达11个,总面积超200万平方英尺,为跨境卖家提供最具性价比的物流解决方案。