成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

2025-03-05 13:40 · 稿源：站长之家用户

凭借卓越性能表现与先天开源优势，DeepSeek正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在GPU领域的重要布局，英特尔锐炫™显卡既是游戏党与视频生产力工作者的新欢，也可用作计算卡，对DeepSeek提供加速支持，为企业用户部署相关AI应用提供一条全新的高价性比实现路径。具体来说，就是与英特尔® 至强® 可扩展处理器或英特尔® 至强® W处理器搭配，以多卡配置的型态来运行和加速DeepSeek推理任务。

本文将在DeepSeek-R1- Distill-Qwen-32B推理场景下，以面向企业级应用且成本较低可控制在5- 6 万元人民币的4 路英特尔锐炫™ A770 显卡 + 至强® W处理器的解决方案为例，详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤，手把手教大家部署和配置这一方案。

1. 软硬件安装配置与初始化

1.1 硬件安装配置

硬件配置

处理器：英特尔® 至强® W 处理器（可选 20 核/ 24 核/ 28 核/ 32 核）

内存：8 x 32GB DDR5-3200

存储：2TB M.2 固态盘

电源：≥ 2000 瓦

GPU：4 x英特尔锐炫™ A770 显卡

BIOS：设置Re-Size BAR Support为[Enabled]

图. 安装 4 路英特尔锐炫™ A770 显卡的AI工作站

在BIOS设置中，将Re-Size BAR Support设为[Enabled]

1.2 软件安装配置

软件配置

操作系统：Ubuntu22.04.1 LTS

内核：6.5.0 - 35 - general

驱动程序：23.43.27642.67

vLLM Serving：intelanalytics/ipex-llm-serving-xpu:b11

安装操作系统Ubuntu22.04.1 LTS（镜像文件可访问https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso获取）。
进行硬件验证，你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后，可通过以下命令检查英特尔锐炫™ A770 显卡是否正常加载：

~$ lspci | grep 56a0

18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

在确保 APT 网络已连接，且你的账号已具有 sudo 权限的情况下，需严格按以下步骤安装驱动程序：

~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg

~$ echo "deb

~$ sudo apt update

如果内核版本不是6.5.0-35，则通过以下命令安装6.5.0- 35 版本：

~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic

~$ sudo apt install intel-i915-dkms

~$ sudo vim /etc/default/grub

GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu， with Linux 6.5.0-35-generic"

~$ sudo update-grub

~$ sudo reboot

然后通过以下命令安装计算、媒体和显示运行时库：

~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo

通过以下命令将当前用户添加到 render 组：

~$ sudo gpasswd -a $(USER) render

~$ sudo newgrp render

驱动程序安装完成后，建议使用以下命令进行验证：

~$ clinfo | grep "Driver Version"

Driver Version 23.43.27642.67

1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示

首先禁用 ast 卡：

~$ sudo vim /etc/modprobe.d/blacklist.conf

在文件底部添加“blacklist ast”：

~$ sudo update-initramfs -u

然后将窗口系统配置为wayland模式：

~$ sudo vim /etc/gdm3/custom.conf

将WaylandEnable设置为true：

完成后更新初始RAM文件系统（initramfs）并重启系统，然后将HDMI线插入首先块英特尔锐炫™ A770 显卡即可完成显示终端设置。

]# sudo update-initramfs -u

~$ sudo reboot

1.4 监控工具xpu-smi安装

可根据xpumanager repo安装用于监控和管理 XPU设备状态信息的xpu-smi 工具。下载xpumanager并执行以下命令：

~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb --no-check-certificate

~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb

~$ xpu-smi discovery

结果显示如下：

大模型服务与聊天机器人演示

2. 1 容器（Docker）安装及服务设置

用户可通过 Docker，在英特尔锐炫™ A770 显卡上使用 IPEX-LLM开展 vLLM 服务。Docker的安装可参考：https://docs.docker.com/engine/install/ubuntu/
通过以下命令，设置CPU主频至比较大睿频，并将显卡锁频至2.4GHz：

~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic

# Query max turbo frequency， like W3445， Max Turbo Frequency is 4.8GHz:

~$ sudo cpupower frequency-set -d 4.8GHz

~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400，2400

~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400，2400

~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400，2400

~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400，2400

2.2 安装并启动vLLM服务

下载并安装以下vllm版本：

~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11

从https://hf-mirror.com下载LLM模型到本地文件夹中（例如：/home/worker/LLM）。
从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下载蒸馏版模型。

将以下脚本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件（以下操作都以DeepSeek-R1-Distill-Qwen-32B版为例）：

将以下脚本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:

然后启动容器和vLLM 服务：

~$ sudo bash backend-ipex-docker.sh

~$ docker exec -it ipex-llm-b11 bash

~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh

如下日志表明DeepSeek推理服务已启动成功：

2.3 使用Chatbox AI进行性能测试

开发者可以在本地使用Chatbox AI进行LLM推理性能测试。如DeepSeek推理服务IP为192.168.10.110，在Windows PowerShell中执行以下命令并输入密码，将远程服务端口映射到本地：

User> ssh -L 8001:localhost:8001 worker@192.168.10.110

打开Chatbox AI的Url（https://web.chatboxai.app/）

选择 “User My Own API Key / Local Model”，点击 “Add Custom Provider”，并根据下图所示进行配置，手动输入DeepSeek整流的模型名称等信息：
由此，使用者可以在Chatbox AI中向大语言模型提问，测试其推理性能：

vllm服务日志能够显示当前的性能状况，如图中所示，基于多路英特尔锐炫™ A770 显卡的推理服务一直有着30+ tokens/s的性能表现。

创新不止步：全新24GB锐炫™ 显卡与满血版DeepSeek R1 方案正在路上

本部署指南虽然是围绕 4 路英特尔锐炫™ A770 显卡的方案展开，且以DeepSeek-R1-Distill-Qwen-32B版为例，但我们的实践探索并未局限于此。

一方面，该解决方案可对DeepSeek各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称，以及设定并行使用的显卡数量来进行调整（使用--tensor-parallel-size参数来控制）。

另一方面，多路英特尔锐炫™显卡 + 英特尔® 至强® 可扩展处理器 /至强® W处理器方案的关键目标，还是锁定在DeepSeek- R1-671B这一性能高峰版本上，其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于KTransformer，能更充分发挥至强® 处理器内置AI加速技术AMX潜能的方案，以及GPU配置密度更高的单机 16 路英特尔锐炫™ 显卡的方案。

另一个值得期待的进展，就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G显存版本也正向我们走来，其 4 张卡即可提供96GB的显存容量，意味着用户可在单机中更轻松地部署更大参数量的DeepSeek服务（例如DeepSeek- R1-671B版本），进而能在实战中以较低的成本和较为便捷的部署方式，开启不缩水的DeepSeek服务。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

DeepSeek-V3.2-Exp正式发布

DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp，该模型基于V3.1-Terminus升级，引入创新的稀疏注意力机制DSA，首次实现细粒度稀疏注意力，在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面，官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整：输入缓存0.2元、输入未缓存2元、输出3元，开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

DeepSeek-V3.2-Exp 稀疏注意力机制 DSA
英特尔举办工业AI与具身智能生态大会，加速智造升级

在2025年中国国际工业博览会上，英特尔携手生态伙伴以“工业+AI”为核心，展示了具身智能、人形机器人、工业AI与大模型等前沿解决方案。发布了基于酷睿Ultra平台的工厂落地案例，实现“大小脑融合”从概念到真实工业场景的跨越。通过全栈式边缘AI技术体系，为智慧工厂等行业智能化转型提供支撑。英特尔将持续推动开放平台与工业场景结合，加速智能制造发展。

工业AI 具身智能人形机器人
PICO × 英特尔× 央美共探 AI 艺术新生态：技术重塑创作、教育与产业未来

AI与艺术融合正加速发展：AI重塑设计流程，使创作者更专注美学思辨；三维重建技术以毫米级精度改写传统工艺，为文物复原提供科学依据；虚拟数字展厅凭借沉浸式体验与互动，为策展提供新可能。PICO联合中央美院等机构举办论坛，探讨AI赋能下的艺术生态。英特尔推出酷睿Ultra处理器，支持智能抠像、文生图等功能，提升创作效率。未来AI将推动艺术教育转型，培养复合型

AI艺术三维重建虚拟数字展厅
强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
英特尔联动「扣子 AI 工坊」启动高校计划——让校园创意一键开挂

英特尔与新一代AI平台扣子联合发起“英特尔×扣子AI工坊高校计划”，旨在通过校企合作推动AI技术在教育领域的深度融合。该计划以校园场景化实践为核心，通过线下工作坊、创新挑战赛等形式，将前沿AI工具引入高校，帮助学生掌握AI应用能力。活动覆盖全国数百所高校，结合酷睿Ultra处理器的硬件优势，让学生直观体验AI在创作、学习等场景的高效赋能。未来双方计划深化课程共建与就业对接，构建AI教育新生态，助力青年适应智能时代发展需求。

AI人才培养 AI技术教育高校AI实践
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

9月18日，华为全联接大会2025在上海开幕。会上，华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出，对有害言论、敏感内容等14个维度的防御成功率近100%，同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作，推动AI安全技术与产业生态协同发展，为我国人工智能高质量发展提供支撑。

华为全联接大会 DeepSeek-R1-Safe 昇腾千卡算力平台
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联

今日大家都在搜的词：

热文

3 天
7天

成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

DeepSeek-V3.2-Exp正式发布

英特尔举办工业AI与具身智能生态大会，加速智造升级

PICO × 英特尔× 央美共探 AI 艺术新生态：技术重塑创作、教育与产业未来

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

英特尔联动「扣子 AI 工坊」启动高校计划——让校园创意一键开挂

DeepSeek更新至V3.1 Terminus版本：两大升级

破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

京东双11购物节官宣：10月9日晚8点开启

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

理想i6正式上市：首销直减1万限时售价23.98万元

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

站长商机

成本打到6万以下 手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

今日大家都在搜的词：

热文

站长商机

成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek