英特尔助力Llama 2大模型普及，推动AI发展惠及各行各业

2023-07-25 09:34 · 稿源：站长之家用户

英特尔广泛的AI硬件组合及开放的软件环境，为Meta发布的Llama2 模型提供了相当竞争力的选择，进一步助力大语言模型的普及，推动AI发展惠及各行各业。

大语言模型（LLM）在生成文本、总结和翻译内容、回答问题、参与对话以及执行复杂任务（如解决数学问题或推理）方面表现出的卓越能力，使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察，并激发AI社区推进技术发展的热情。

Llama2 旨在帮助开发者、研究人员和组织构建基于生成式AI的工具和体验。Meta发布了多个Llama2 的预训练和微调版本，拥有 70 亿、 130 亿和 700 亿三种参数。通过Llama 2，Meta在公司的各个微调模型中采用了三项以安全为导向的核心技术：安全的有监督微调、安全的目标文本提取以及安全的人类反馈强化学习（RLHF）。这些技术相结合，使Meta得以提高安全性能。随着越来越广泛的使用，人们将能够以透明、公开的方式不断识别并降低生成有害内容的风险。

英特尔致力于通过提供广泛的硬件选择和开放的软件环境，推动AI的发展与普及。英特尔提供了一系列AI解决方案，为AI社区开发和运行Llama2 等模型提供了相当竞争力和相当吸引力的选择。英特尔丰富的AI硬件产品组合与优化开放的软件相结合，为应对算力挑战提供了可行的方案。

英特尔提供了满足模型的开发和部署的AI优化软件。开放生态系统是英特尔得天独厚的战略优势，在AI领域亦是如此。我们致力于培育一个充满活力的开放生态系统来推动AI创新，其安全、可追溯、负责任以及遵循道德，这对整个行业至关重要。此次发布的大模型进一步彰显了我们的核心价值观——开放，为开发人员提供了一个值得信赖的选择。Llama2 模型的发布是我们行业向开放式AI发展转型迈出的重要一步，即以公开透明的方式推动创新并助力其蓬勃发展。

-- 李炜

英特尔软件与先进技术副总裁

兼人工智能和分析部门总经理

-- Melissa Evers

英特尔软件与先进技术副总裁

兼执行战略部总经理

在Llama2 发布之际，我们很高兴地分享 70 亿和 130 亿参数模型的初始推理性能测试结果。这些模型在英特尔AI产品组合上运行，包括Habana®Gaudi®2 深度学习加速器、第四代英特尔®至强®可扩展处理器、英特尔®至强®CPU Max系列和英特尔®数据中心GPU Max系列。我们在本文中分享的性能指标是我们当前软件提供的“开箱即用”的性能，并有望在未来的软件中进一步提升。我们还支持 700 亿参数模型，并将很快分享最新相关信息。

Habana®Gaudi®2 深度学习加速器

Habana Gaudi2 旨在为用户提供高性能、高能效的训练与推理，尤其适用于诸如Llama和Llama2 的大语言模型。Gaudi2 加速器具备96GB HBM2E的内存容量，可满足大语言模型的内存需求并提高推理性能。Gaudi2 配备Habana®SynapseAI®软件套件，该套件集成了对PyTorch和DeepSpeed的支持，以用于大语言模型的训练和推理。此外，SynapseAI近期开始支持HPU Graphs和DeepSpeed推理，专门针对时延敏感度高的推理应用。Gaudi2 还将进行进一步的软件优化，包括计划在 2023 年第三季度支持FP8 数据类型。此优化预计将在执行大语言模型时大幅提高性能、吞吐量，并有效降低延迟。

大语言模型的性能需要灵活敏捷的可扩展性，来突破服务器内以及跨节点间的网络瓶颈。每张Gaudi2 芯片集成了 21 个100Gbps以太网接口， 21 个接口专用于连接服务器内的 8 颗Gaudi2，该网络配置有助于提升服务器内外的扩展性能。

在近期发布的MLPerf基准测试中，Gaudi2 在大语言模型上展现了出色的训练性能，包括在 384 个Gaudi2 加速器上训练 1750 亿参数的GPT- 3 模型所展现的结果。Gaudi2 经过验证的高性能使其成为Llama和Llama2 模型训练和推理的高能效解决方案。

图 1 显示了 70 亿参数和 130 亿参数Llama2 模型的推理性能。模型分别在一台Habana Gaudi2 设备上运行，batch size=1，输出token长度256，输入token长度不定，使用BF16 精度。报告的性能指标为每个token的延迟（不含第一个）。该测试使用optimum-habana文本生成脚本在Llama模型上运行推理。optimum-habana库能够帮助简化在Gaudi加速器上部署此类模型的流程，仅需极少的代码更改即可实现。如图 1 所示，对于 128 至 2000 输入token，在 70 亿参数模型上Gaudi2 的推理延迟范围为每token 9.0-12. 2 毫秒，而对于 130 亿参数模型，范围为每token 15.5-20. 4 毫秒1。

图1 基于Habana Gaudi2， 70 亿和 130 亿参数Llama2 模型的推理性能

若想访问Gaudi2，可在英特尔开发者云平台上注册一个实例，或联系超微（Supermicro）了解Gaudi2 服务器基础设施。

英特尔®至强®可扩展处理器

第四代英特尔至强可扩展处理器是一款通用计算处理器，具有英特尔®高级矩阵扩展（英特尔®AMX）的AI加速功能。具体而言，该处理器的每个核心内置了BF16 和INT8 通用矩阵乘（GEMM）加速器，以加速深度学习训练和推理工作负载。此外，英特尔®至强®CPU Max系列，每颗CPU提供64GB的高带宽内存（HBM2E），两颗共128GB，由于大语言模型的工作负载通常受到内存带宽的限制，因此，该性能对于大模型来说极为重要。

目前，针对英特尔至强处理器的软件优化已升级到深度学习框架中，并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI库的默认发行版。英特尔主导了torch.compile CPU后端的开发和优化，这是PyTorch 2. 0 的旗舰功能。与此同时，英特尔还提供英特尔®PyTorch扩展包*（Intel®Extension for PyTorch*），旨在PyTorch官方发行版之前，尽早、及时地为客户提供英特尔CPU的优化。

第四代英特尔至强可扩展处理器拥有更高的内存容量，支持在单个插槽内实现适用于对话式AI和文本摘要应用的、低延迟的大语言模型执行。对于BF16 和INT8，该结果展示了单个插槽内执行 1 个模型时的延迟。英特尔®PyTorch扩展包*支持SmoothQuant，以确保INT8 精度模型具有良好的准确度。

考虑到大语言模型应用需要以足够快的速度生成token，以满足读者较快的阅读速度，我们选择token延迟，即生成每个token所需的时间作为主要的性能指标，并以快速人类读者的阅读速度（约为每个token100 毫秒）作为参考。如图2、 3 所示，对于 70 亿参数的Llama2 BF16 模型和 130 亿参数的Llama 2 INT8 模型，第四代英特尔至强单插槽的延迟均低于 100 毫秒2。

得益于更高的HBM2E带宽，英特尔至强CPU Max系列为以上两个模型提供了更低的延迟。而凭借英特尔AMX加速器，用户可以通过更高的批量尺寸（batch size）来提高吞吐量。

图2 基于英特尔至强可扩展处理器， 70 亿参数和 130 亿参数Llama2 模型（BFloat16）的推理性能

图3 基于英特尔至强可扩展处理器， 70 亿参数和 130 亿参数Llama2 模型（INT8）的推理性能

对于 70 亿和 130 亿参数的模型，每个第四代至强插槽可提供低于 100 毫秒的延迟。用户可以分别在两个插槽上同时运行两个并行实例，从而获得更高的吞吐量，并独立地服务客户端。亦或者，用户可以通过英特尔®PyTorch扩展包*和DeepSpeed* CPU，使用张量并行的方式在两个第四代至强插槽上运行推理，从而进一步降低延迟或支持更大的模型。

关于在至强平台上运行大语言模型和Llama 2，开发者可以前往官网了解更多详细信息。第四代英特尔至强可扩展处理器的云实例可在AWS和Microsoft Azure上预览，目前已在谷歌云平台和阿里云全面上线。英特尔将持续在PyTorch*和DeepSpeed*进行软件优化，以进一步加速Llama2 和其它大语言模型。

英特尔®数据中心GPU Max系列

英特尔数据中心GPU Max系列提供并行计算、科学计算和适用于科学计算的AI加速。作为英特尔性能最为出色、密度最高的独立显卡，英特尔数据中心GPU Max系列产品中封装超过 1000 亿个晶体管，并包含多达 128 个Xe内核，Xe是英特尔GPU的计算构建模块。

英特尔数据中心GPU Max系列旨在为AI和科学计算中使用的数据密集型计算模型提供突破性的性能，包括：

●408 MB基于独立SRAM技术的L2 缓存、64MB L1 缓存以及高达128GB的高带宽内存（HBM2E）。

●AI增强型的Xe英特尔®矩阵扩展（英特尔®XMX）搭载脉动阵列，在单台设备中可实现矢量和矩阵功能。

英特尔Max系列产品统一支持oneAPI，并基于此实现通用、开放、基于标准的编程模型，释放生产力和性能。英特尔oneAPI工具包括高级编译器、库、分析工具和代码迁移工具，可使用SYCL轻松将CUDA代码迁移到开放的C++。

英特尔数据中心Max系列GPU通过当今框架的开源扩展来实现软件支持和优化，例如面向PyTorch*的英特尔扩展、面向TensorFlow*的英特尔®扩展和面向DeepSpeed*的英特尔®扩展。通过将这些扩展与上游框架版本一起使用，用户将能够在机器学习工作流中实现快速整合。

我们在一个 600 瓦OAM形态的GPU上评估了Llama2 的 70 亿参数模型和Llama2 的 130 亿参数模型推理性能，这个GPU上封装了两个tile，而我们只使用其中一个tile来运行推理。图 4 显示，对于输入长度为 32 到 2000 的token，英特尔数据中心GPU Max系列的一个tile可以为 70 亿参数模型的推理提供低于 20 毫秒的单token延迟， 130 亿参数模型的单token延迟为29.2-33. 8 毫秒3。因为该GPU上封装了两个tile，用户可以同时并行运行两个独立的实例，每个tile上运行一个，以获得更高的吞吐量并独立地服务客户端。

图4 英特尔数据中心GPU Max 1550 上的Llama 2 的 70 亿和 130 亿参数模型的推理性能

关于在英特尔GPU平台上运行大语言模型和Llama 2，可以前往官网获取详细信息。目前英特尔开发者云平台上已发布英特尔GPU Max云实例测试版。

英特尔平台上的大语言模型微调

除了推理之外，英特尔一直在积极地推进微调加速，通过向Hugging Face Transformers、PEFT、Accelerate和Optimum库提供优化，并在面向Transformers的英特尔®扩展中提供参考工作流。这些工作流支持在相关英特尔平台上有效地部署典型的大语言模型任务，如文本生成、代码生成、完成和摘要。

总结

上述内容介绍了在英特尔AI硬件产品组合上运行Llama2 的 70 亿和 130 亿参数模型推理性能的初始评估，包括Habana Gaudi2 深度学习加速器、第四代英特尔至强可扩展处理器、英特尔®至强®CPU Max系列和英特尔数据中心GPU Max系列。我们将继续通过软件发布提供优化，后续会再分享更多关于大语言模型和更大的Llama2 模型的评估。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta悄然发布Llama 2 Long AI模型

Meta最近发布了Llama2LongAI模型，该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术，Meta的研究人员提高了这个AI模型的性能，使其能够更好地处理长文本和复杂任务。强调了合作的重要性，指出不是每个企业都拥有高级的数据工程和数据科学技能，因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

Meta
几千元训完中文版LLaMA2！Colossal-LLaMA-2把大模型门槛打下来了！

从头预训练大模型被认为需要高达5000万美元的投资，这让很多开发者和中小企业望却步。Colossal-LLaMA-2的出现降低了大模型的门槛。该方案业已应用到多个行业领域，构建垂类大模型并取得良好效果。

Colossal
中文LLaMA-2刷榜，开源可商用！千元预算，训练半天，效果媲美主流大模型

最强中文版LLaMA-2来了!15小时训练，仅需数千元算力，性能碾压同级中文汉化模型，开源可商用。LLaMA-2相较于LLaMA-1，引入了更多且高质量的语料，实现了显著的性能提升，全面允许商用，进一步激发了开源社区的繁荣，拓展了大型模型的应用想象空间。ColossalAI云平台现已开启公测，注册即可获得代金券，欢迎参与并提出反馈。

LLaMA-2 开源大模型
荐全面超越LLaMA2，月下载量超三百万，国产开源大模型如何成为新晋顶流？

图源备注：图片由AI生成，图片授权服务商Midjourney回想两个月前，LLaMA2的开源，曾以一己之力改变了大模型领域的竞争格局。相比于今年2月推出的第一代LLaMA，LLaMA2在推理、编码、精通性和知识测试等任务中都实现了性能的大幅提升，甚至可以在某些数据集上接近GPT-3.5。如何让大模型的能力与业务场景更好结合，同样是当下每一家大模型提供商的重点课题，也需要科技公司、学术机构和开发者共同创造。

LLaMA2 开源大模型 GPT
国产开源新标杆！20B大模型，性能媲美Llama2-70B，单卡可推理

国产新标杆:免费可商用的200亿参数大模型，来了!书生·浦语大模型20B版本正式发布，一举刷新国内新一代大模型开源纪录。它由上海人工智能实验室与商汤科技联合香港中文大学和复旦大学共同推出。正如林达华所说:这或许才是当下大模型趋势里，大家最应该“卷”的方向。

InternLM 书生·浦语大模型
荐CMU华人打破大模型黑盒，Llama 2撒谎被一眼看穿！脑电波惨遭曝光，LLM矩阵全破解

大语言模型黑盒，居然被CMU等机构的学者打破了?他们发现，LLM内部有可解释的表征，如果撒谎能被测谎仪检测出来!最近，来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——大语言模型，并不仅仅是黑匣子，或者难以理解的庞大矩阵。在它们内部，具有可解释的内部表征。CMU等机构研究者的探索也告诉我们，人类对于AI系统的理解和控制会越

大语言模型 Llama
荐20B量级大模型性能媲美Llama2-70B！完全开源，从基座到工具全安排明白了

【新智元导读】国产模型开源纪录，又被刷新了!上海AI实验室等机构开源的InternLM-20B，竟然能和Llama2-70B打个平手?就在刚刚，国内开源模型参数量纪录，又被刷新了!9月20日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学，正式开源了200亿参数的InternLM-20B模型。项目地址:https://github.com/InternLM/InternLM魔搭社区:https://modelscope.cn/organization/Shanghai_AI_Laboratory这次的200亿参数版书生·浦语大模型，可以说是「加量不加价」，参数量还不到三分之一，性能却可以剑挑当今开源模型的标杆——Llama2-70B。上海AI实验室的「雪中送炭」，必然会让大模型在落地领域发挥出巨大的价值。

模型
Riiid AI模型Sheep-duck-llama-2在HuggingFace排名第一

AI教育解决方案领导者Riiid宣布，其最新生成式AI模型在知名机器学习模型平台HuggingFace上获得第一名。HuggingFace开放式大语言模型排名中，Riiid10月提交的最新模型“Sheep-duck-llama-2”获得了74.07分的高分，在全球500多个开源生成式AI模型中位居榜首。Riiid研究人员将继续开发新的模型架构，提升AI模型性能，并以实际数据验证学习影响，在国际AI会议上发表论文。

Riiid HuggingFace
荐开源标杆！最强中英双语大模型来了，340亿参数，超越 Llama2-70B等所有开源模型

开源界最强的中英双语大模型，悟道·天鹰34B，来了!有多强?一言蔽之:不仅模型够大够能打还一口气送上整套“全家桶”级豪华周边。能有如此大手笔的，正是中国大模型开源派先锋——智源研究院。Aquila2模型全系开源地址:https://github.com/FlagAI-Open/Aquila2https://model.baai.ac.cn/https://huggingface.co/BAAIAquilaSQL开源仓库地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sqlFlagAttenti

Llama2 开源模型
昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

昆仑万维表示，其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率，超过了GPT-3.5和LLaMA2-70B，达到了全球领先水平，接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色，准确率均高于其他主流大模型。天工大模型目前仍处于内测阶段，将持续提升技术实力，为用户和企业提供强大的智能化助力。

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

英特尔助力Llama 2大模型普及，推动AI发展惠及各行各业

今日大家都在搜的词：

热文

站长商机