Intel研究人员提出新AI方法，更高效地在CPU上部署LLM

2023-11-10 14:32 · 稿源：站长之家

**划重点:**
- 🌐 大型语言模型（LLM）因在文本生成、语言理解和文本摘要等任务中的卓越表现而备受欢迎，但其庞大的模型参数却需要大量内存和专用硬件。
- 🧮 为了降低推断所需的计算功率，Intel的研究人员提出了一种有效的方法，支持自动的INT-4权重量化流程，可以在CPU上高效部署LLM。
- ⚙️ 他们还设计了一个特定的LLM运行时，具有高度优化的内核，加速CPU上的推断过程。

站长之家(ChinaZ.com) 11月10日消息:大型语言模型（LLM）因其在文本生成、语言理解和文本摘要等各种任务中的卓越性能而备受瞩目，但它们庞大的模型参数却需要大量内存和专用硬件，这使得部署这些模型变得相当具有挑战性。

为了降低推断所需的计算功率，研究人员通常采用权重量化等方法，即减少人工神经网络的权重和激活函数的精度。其中，INT8和仅权重量化是一些改进推断成本的方法。然而，这些方法通常针对CUDA进行优化，可能不适用于CPU。

英特尔

Intel研究人员提出了一种有效的方法，可以在CPU上高效部署LLM。他们的方法支持自动的INT-4仅权重量化流程，即将低精度应用于模型的权重，而将激活函数的精度保持较高。此外，他们设计了一个特定的LLM运行时，具有高度优化的内核，可以加速CPU上的推断过程。

他们的权重量化流程基于Intel神经压缩器，并允许在不同的量化配方、粒度和组大小上进行调整，以生成满足准确性目标的INT4模型。然后，将模型传递给LLM运行时，这是一个专门设计用于评估量化模型性能的环境。该运行时已经设计用于在CPU上高效推断LLM。

在他们的实验中，研究人员选择了一些参数大小不同的流行LLM，范围从7B到20B。他们使用开源数据集评估了FP32和INT4模型的性能。他们观察到，在所选数据集上，量化模型的准确性几乎与FP32模型相当。此外，他们对下一个标记生成的延迟进行了比较分析，并发现LLM运行时比ggml-based解决方案性能提高了多达1.6倍。

研究论文提出了解决LLM推断在CPU上的一个最大挑战的方法。传统上，这些模型需要像GPU这样的专用硬件，这使它们对许多组织来说不可及。这篇论文提出了INT4模型量化以及专门的LLM运行时，以在CPU上高效推断LLM。

在一组流行的LLM上进行评估时，该方法表现出比ggml-based解决方案更具优势，并且在准确性上与FP32模型相当。然而，还有进一步改进的空间，研究人员计划推动在个人计算机上实现生成式人工智能，以满足对人工智能生成内容不断增长的需求。

项目网址：https://github.com/intel/intel-extension-for-transformers

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
抗衰界的“新宠”NAD+是什么？如何补充更高效？

随着科学家发现NAD与抗衰老的关系，NAD的补充剂逐渐成为广受科研界、富豪圈、投资界追捧的最新一代抗衰品，被《nature》、《cell》等世界级科研期刊追踪报道，NASA用NAD的补充剂来保护宇航员免受太空辐射、修复DNA，哈佛大学医学院教授大卫·辛克莱、李嘉诚、潘石屹等精英富豪则长期服用NAD的补充剂用于抗衰延寿。尽管NAD成为上层人士抗衰老的新宠，但仍有不少人对NAD是什么表示疑惑。除了可以服用专门的NAD补充剂之外可通过健康饮食、定期锻炼和保持良好睡眠的方式，来保持体内一定的NAD水平，达到保持身体健康年轻的目的。

NAD+ 抗衰老补充剂
微软研究人员指出，并非所有token都符合需求

微软研究人员挑战了语言模型预训练的传统方法，该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1，该模型利用选择性语言建模。SLM可以扩展到监督微调，以解决数据集中的噪声和分布不匹配，并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

AI数据 AI头条
开源大模型食用指南官网地址入口详细环境配置、模型部署、高效微调方法教程

开源大模型食用指南是一个旨在帮助用户学习和应用开源大模型的全流程指导教程。它提供了详细的环境配置、模型部署、高效微调等方法，以简化开源大模型的使用和应用，让更多普通学习者能够轻松上手。要获取更多详细信息并开始您的开源大模型之旅，请访问开源大模型食用指南官网。

开源大模型食用指南
绘威集团耗材科普：如何选择适合的硒鼓与墨盒才能实现更高效打印

打印机已成为我们日常工作不可或缺的重要工具硒鼓和墨盒作为打印机的核心耗材，其选择和使用直接关系到打印效果和成本。如何选择适合的硒鼓和墨盒呢?本文将为您科普。选择适合的硒鼓和墨盒是确保打印机高效稳定运行的关键，绘威集团作为国内知名的耗材品牌，凭借其优质的产品和服务赢得了广大用户的认可。

打印机硒鼓墨盒
智能、便捷 | SW-RDMS 助力企业实现更高效、优质的成果产出

医药行业是一个高度专业化、技术密集型的行业，其研发活动的质量和效率直接影响到企业的生存和发展。然而，随着新药审评审批难度的增大以及新技术在医药行业的应用，医药企业的研发管理面临着许多挑战，传统的新药研发管理模式已经无法满足现代医药企业的需求，医药研发信息化建设迫在眉睫。一、医药企业研发管理的现状与问题目前，医药企业的研发管理主要存�
荐Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
更深入、更高效、更精准，神策数据海外媒介效果分析能力升级

如何在数据安全与合规的前提下，高效地追踪海外多媒体平台的投放流量，有效归因分析投放效果，持续优化企业在海外媒体的一系列营销动作?针对企业客户的这一需求，神策数据从专业性和效率最佳两个角度综合考虑，接入多家第三方MMP，例如AppsFlyer、Adjust等，为企业提供强大的数据分析和营销优化工具，帮助企业获得更深入的洞察力、更高效的营销活动评估能力，以及更精准的用户行为分析能力。一、聚焦企业海外经营，三大价值解密神策分析最新能力1.跨渠道数据打通和关联，看数与决策效率双重提升神策数据作为专业的数字化客户经营软件提供商，能够为企业提供强大的数据合规采集与多维分析能力，通过结合第三方MMP的归因数据，可以帮助企业精确衡量营销活动ROI、识别并优化成本效益最高的营销策略、定位活动中需要改进的策略等，从实现数据驱动决策、优化营销预算。如果您对以上内容感兴趣，欢迎关注神策数据公众号，或者搜索进入神策数据官网咨询客服立即免费体验。

数据安全合规投放流量
作业帮旗下云思智学亮相中国装备展,科技赋能让教育更高效

4月19日，由中国教育装备行业协会主办，重庆市教育委员会、重庆市两江新区管委会、重庆市渝北区人民政府共同承办的第83届中国教育装备展示会，在重庆国际博览中心举行。展会为期3天，围绕“数字赋能教育、创新引领未来”为主题，汇聚行业精英交流分享最新研究成果和实践经验，共同探讨教育数字化转型和教育教学创新的发展路径和前沿趋势。作业帮旗下教育数字化�
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条

今日大家都在搜的词：

热文

3 天
7天

Intel研究人员提出新AI方法，更高效地在CPU上部署LLM

今日大家都在搜的词：

热文

站长商机