首页 > 业界 > 关键词  > 正文

这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM服务

2023-11-24 09:52 · 稿源:站长之家

划重点:

- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。

- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。

站长之家(ChinaZ.com)11月24日 消息:大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

image.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

举报

  • 相关推荐
  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 纸嫁衣如何借助Sigmob实现IAA广告变现的高效平衡?

    随着中国游戏市场发展,移动解谜游戏成为重要娱乐方式。《纸嫁衣》系列凭借传统文化融合与沉浸式体验成为国产解谜游戏代表IP。其采用IAA商业模式,核心挑战在于平衡广告体验与剧情沉浸感。团队与Sigmob长期合作,通过精细化运营实现用户体感与广告收益双赢。具体策略包括:用户行为驱动的广告触发机制、智能投放技术优化填充率与eCPM、分阶段动态调优策略(冷启动期快速扩量、成长期构建用户特征库、成熟期结合频控提升收益)。合作使广告收益稳步增长,CPM持续提升,为解谜类游戏商业化提供了“场景化+轻量级+用户主动型”广告设计的新思路,未来将继续探索多元化变现模式。

  • 企业构建技术支持方案的几个要素:高效远程、软件定制、管理追溯、工单接入

    售后技术支持是软件服务业务中不可或缺的一环节,直接关系到客户体验与品牌声誉。文章以贝锐旗下向日葵技术支持方案为例,介绍如何构建专业且成本可控的售后支持体系,重点整合工单系统与远程支持工具,实现高效响应客户需求、提升服务效率并控制成本。方案支持多场景应用,具备高清低延迟远程控制、企业级安全通道及完善的管理功能,帮助中小企业快速建立规范、可追溯的技术支持体系。

  • 趣链科技“储能规划师”4小时高效锁商机

    趣链科技推出的“储能规划师”AI平台显著提升储能项目效率。传统方案需耗时三天,现仅需4小时即可生成多套容量配置与财务方案,效率提升18倍。平台整合区块链与隐私计算技术,实现数据可追溯、决策透明,解决传统模式中数据格式不一、人工建模耗时长、信任危机等痛点。已服务宁波誉为电力、苏州华储电气等数十家能源企业,助力企业精准把握政策窗口期,降低人力成本。当前储能赛道进入“速度与精准性”并重阶段,该平台将持续推动行业数字化,为大规模储能推广提供高效协同支撑。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 腾讯云马文霜:Cloud Mate:助力企业高效管云、用云,让云上业务坚如磐石

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则,通过统一技术架构支撑自研业务与外部客户,实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力,旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力企业降低AI应用门槛。李力指出,未来两年AI+Agent部署将大幅增长,腾讯云已服务国内90%的大模型厂商,并为多行业提供高效智算支持。

  • 破传统工具痛点!YY 开播作为专业直播工具,助力创作者高效开播

    随着全民直播从潮流热点转向内容创作常态,创作者对专业化直播工具需求迫切。传统工具存在功能碎片化、操作复杂、美颜失真等问题。YY开播作为专业直播工具,通过功能整合、多平台适配与智能美颜技术,提供一体化解决方案,降低创作门槛,让创作者更专注于内容本身,推动直播行业从数量积累向质量提升转型。

  • 宁德时代磐石底盘亮相IAA,面向全球引入高效安全造车新范式

    2025年9月8日,宁德时代在德国慕尼黑国际汽车及智慧出行博览会首次亮相其欧洲市场产品——磐石底盘。该底盘采用“上下车体解耦”设计理念,打造高度集成的智能移动底座,提供大、中、小三个平台,覆盖全场景车型尺寸。宁德时代通过“1+1+1”本土化合作模式,为全球合作伙伴提供底盘技术产品服务,赋能合作伙伴快速推出具备市场竞争力的车型,降低投资门槛并实现高

  • 宜享花依托AI与大数据技术,推动消费金融合规创新与服务提质

    宜人智科旗下品牌宜享花以人工智能与大数据技术为核心驱动力,构建覆盖全链路的一体化智能服务体系。平台在严格合规框架下,深度融合金融机构与多元场景资源,为消费者提供精准、安全的金融支持,并通过科技创新持续优化风控能力与服务体验。宜享花高度重视合规经营,建立覆盖业务全流程的个人信息保护机制,自主研发“Hawkeye反欺诈管理系统”有效识别并拦截欺诈行为。同时,平台发布《消费者权益保护2024年度报告》,建立六大消保评审维度,强化事前审查与专项检查机制。通过AI技术打造高效、智能的客户服务体系,累计提供智能客服超490万次,智能客服分流率达52%。未来,宜享花将持续深化科技应用,筑牢智能风控防线,完善消费者权益保护,为经济高质量发展注入科技金融新动能。

  • 可灵AI亮相釜山国际电影节 技术实力获韩媒高度评价

    9月20日,可灵AI亮相第30届釜山国际电影节,参与亚洲内容与电影市场论坛,与AWS、Google等全球科技企业探讨AI与影视叙事的融合创新。作为首个登上国际电影节的国产AI视频生成模型,可灵AI凭借卓越技术获韩国主流媒体高度评价,现场演示仅用几张照片即生成生动视频,展现高效低成本的影视制作能力。可灵AI还宣布将参与戛纳电视节、东京国际电影节,并启动全球AI影像创作大赛,推动行业交流与人才孵化。目前其生态已覆盖149个国家地区,服务超4500万创作者,彰显中国AI在影视领域的全球影响力与赋能决心。

今日大家都在搜的词: