首页 > 业界 > 关键词  > 正文

Intel研究人员提出新AI方法,更高效地在CPU上部署LLM

2023-11-10 14:32 · 稿源:站长之家

**划重点:**

- 🌐 大型语言模型(LLM)因在文本生成、语言理解和文本摘要等任务中的卓越表现而备受欢迎,但其庞大的模型参数却需要大量内存和专用硬件。

- 🧮 为了降低推断所需的计算功率,Intel的研究人员提出了一种有效的方法,支持自动的INT-4权重量化流程,可以在CPU上高效部署LLM。

- ⚙️ 他们还设计了一个特定的LLM运行时,具有高度优化的内核,加速CPU上的推断过程。

站长之家(ChinaZ.com) 11月10日 消息:大型语言模型(LLM)因其在文本生成、语言理解和文本摘要等各种任务中的卓越性能而备受瞩目,但它们庞大的模型参数却需要大量内存和专用硬件,这使得部署这些模型变得相当具有挑战性。

为了降低推断所需的计算功率,研究人员通常采用权重量化等方法,即减少人工神经网络的权重和激活函数的精度。其中,INT8和仅权重量化是一些改进推断成本的方法。然而,这些方法通常针对CUDA进行优化,可能不适用于CPU。

英特尔

Intel研究人员提出了一种有效的方法,可以在CPU上高效部署LLM。他们的方法支持自动的INT-4仅权重量化流程,即将低精度应用于模型的权重,而将激活函数的精度保持较高。此外,他们设计了一个特定的LLM运行时,具有高度优化的内核,可以加速CPU上的推断过程。

他们的权重量化流程基于Intel神经压缩器,并允许在不同的量化配方、粒度和组大小上进行调整,以生成满足准确性目标的INT4模型。然后,将模型传递给LLM运行时,这是一个专门设计用于评估量化模型性能的环境。该运行时已经设计用于在CPU上高效推断LLM。

在他们的实验中,研究人员选择了一些参数大小不同的流行LLM,范围从7B到20B。他们使用开源数据集评估了FP32和INT4模型的性能。他们观察到,在所选数据集上,量化模型的准确性几乎与FP32模型相当。此外,他们对下一个标记生成的延迟进行了比较分析,并发现LLM运行时比ggml-based解决方案性能提高了多达1.6倍。

研究论文提出了解决LLM推断在CPU上的一个最大挑战的方法。传统上,这些模型需要像GPU这样的专用硬件,这使它们对许多组织来说不可及。这篇论文提出了INT4模型量化以及专门的LLM运行时,以在CPU上高效推断LLM。

在一组流行的LLM上进行评估时,该方法表现出比ggml-based解决方案更具优势,并且在准确性上与FP32模型相当。然而,还有进一步改进的空间,研究人员计划推动在个人计算机上实现生成式人工智能,以满足对人工智能生成内容不断增长的需求。

项目网址:https://github.com/intel/intel-extension-for-transformers

举报

  • 相关推荐
  • 收入是Intel的5倍!AMD CPU美国亚马逊3月销量惊人占比80%

    根据最新数据,在2025年3月美国亚马逊平台上,AMD的CPU销量占比高达78.74%,销售额达到约780万美元Intel的CPU仅占21.26%,销售额约为150万美元。AMD锐龙系列处理器在销量上全面领先,其中,锐龙79800X3D以超过6000颗的销量位居榜首,其最终销量接近7000颗。需要注意的是,有一些产品销量过千,比如9950X3D,但因为它们在亚马逊缺货,所以不显示销量。

  • 腾讯“物种之眼”AI全新升级 高效识别数千物种

    AI系统“物种类辨”通过少量数据学习,显著提升了对多种生物的识别准确率与召回率,尤其在高精度识别多类生物方面表现出色,推动生态保护与智能技术发展。腾讯开放平台“野生生物多态数据协作”项目助力野生动物监测及保护工作,促进公众科学参与。

  • Intel Panther Lake首发版本曝光!其它等明年

    快科技5月2日消息,根据最新消息,今年底英特尔将推出PantherLake处理器的首个SKU4P 8E 0LPE 4Xe版本,其他配置版本则要等到2026年初才会发布。4P 8E配置版本与此前传闻的4P 8E 4LPE 12Xe版本有所不同,该版本版本不包含LPE核显,搭配的是4个Xe3GPU核心。该版本TDP为45W,明显高于LunarLake的17W至28W,综合来看,这一配置显然更适合游戏笔记本,因为在这种设备中,集成显卡的重要性相对较低。目前PantherLake已曝光的SKU共有四个,具体如下:4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

  • 亚马逊十大ERP系统推荐:助力卖家高效运营

    在亚马逊电商市场竞争日益激烈的背景下,如何高效管理库存、订单、财务等业务环节,成为卖家提升竞争力的关键。ERP系统作为卖家运营的核心工具,能够集成各环节数据,实现业务流程的自动化与智能化管理。通过有效利用ERP系统,卖家可实现业务流程的优化和智能化管理,从在激烈的市场竞争中脱颖出。

  • 显存性能跃升!Intel下代Arc独显有望用上GDDR7

    Intel的“内存调优与验证”(内部优化)使得GDDR6/GDDR7的性能提升显著,超越了AMD和Intel的最新显卡。文章还提到,Battlemage系列显卡已经成功实现了目标,主要优势在于与硬件的紧密结合和高效内存传输,从而提高了性能,特别适用于大规模任务。文中指出,通过此次发布,Intel已经实现了其在该领域的领先地位。由于未能充分了解具体细节,文章未提供对比测试结果,但强调�

  • 用上车规级UFS 4.0,让出行变得高效且可靠

    2025年上海国际车展显示,汽车智能化、电动化趋势加速,车载存储需求激增。随着大尺寸中控屏、HUD、流媒体等配置普及,单车存储容量将从35GB提升至数百GB甚至TB级别。车规级UFS 4.0存储成为关键,其传输速度达4,640MB/s,可快速加载高清地图和AI模型。严苛的车规认证(如AEC-Q100、IATF16949)要求存储芯片在极端温度、振动环境下稳定工作。行业正从单一ECU向域控制器架构转型,高性能车规存储需兼具大容量、高可靠性和宽温工作特性,以满足智能驾驶和车载娱乐系统的数据需求。

  • MCP协议和Function Calling 、 AI Agents的区别是什么?MCP优势有哪些

    MCP、FunctionCalling和AIAgents是三种重要的技术手段,它们在实现AI模型与外部系统交互方面各有特点。本文将详细对比这三种技术,并深入探讨MCP的多项显著优势。随着MCP技术的不断发展,我们有理由相信,它将在未来的AI领域发挥越来越重要的作用。

  • 弧面紧贴、深度杀根——飞科F8重塑高效净剃新标杆

    4 月 16 日,中国个人护理电器国民品牌飞科重磅发布新一代“高速弧面剃须系统”剃须刀F8(以下简称飞科F8),这款集“弧面不锈钢刀网、高速追频直线电机、AI胡须感应科技“于一体的创新产品……

  • 11.5天高效完成!我国超深水钻井周期纪录刷新

    快科技4月16日消息,中国海油宣布,在我国南部海域某超深水探井作业中,仅用11.5天就高效完成钻井作业,创造了3500-4000米超深水钻井周期的新纪录。这一突破标志着我国自主深水钻完井技术体系已具备国际先进水平。此次技术突破验证了我国在超深水钻完井领域的优智技术实力,对推动深水油气资源规模化开发具有重要意义。数据显示,十四五以来,我国深水井钻完井作业量较十三五增长超74%,有力支撑了多个大型深水油气项目的建成投产。为加快深海油气开发,中国海油在深水、超深水、高温高压、超高温超高压等多个高技术、高难度领域开展钻完?

  • 记忆重塑,讲真学堂打造《高效记忆训练营》助力学员记忆升级

    在日常生活中,许多人常遇到这样的场景:随手放置的物品难以找回,刚刚想要做的事情转眼就忘,老板和同事的交代也时常在脑海中消失无踪……这些记忆力减退的现象,不禁让人担忧自己是否提前步入了记忆力衰退的阶段。面对这一挑战,深入了解记忆与记忆消退的机制显得尤为重要。讲真学堂将继续秉承科学赋能、终身学习的理念,不断优化和完善《高效记忆训练营》课程,为更多学员提供高质量的记忆训练服务,助力他们打造坚实的记忆基石,迎接更加美好的人生。

热文

  • 3 天
  • 7天