技术奇迹！清华突破大模型算力难题 RTX 4090单枪匹马就能跑满血版DeepSeek

2025-02-15 14:07 · 稿源：快科技

突破大模型算力瓶颈，清华团队再创里程碑

清华大学KVCache.AI团队携手趋境科技，为其开源项目KTransformers带来重磅更新，打破大模型推理算力障碍。

此次更新支持在24GB显存的设备上本地运行DeepSeek-R1、V3的完整版（671B）。其背后蕴藏着异构计算策略的创新突破：

稀疏性利用：采用MoE架构，只激活部分专家模块。非共享稀疏矩阵卸载至CPU内存，结合高速算子处理，显存占用减至24GB。
量化与算子优化：采用4bit量化技术和Marlin GPU算子，效率提升3.87倍。CPU端采用llamafile实现多线程并行，预处理速度高达286 tokens/s。
CUDA Graph加速：减少CPU/GPU通信开销，单次解码只需一次完整CUDA Graph调用，生成速度达14 tokens/s。

这一突破极具意义：

降低成本：相比传统8卡A100服务器，单卡RTX 4090方案将整机成本降至约2万元，功耗仅需80W。
赋能中小团队：低成本、低功耗方案为中小团队和个人开发者打开了大模型研究的大门。

清华团队在RTX 4090上运行DeepSeek-R1满血版的案例，不仅彰显了技术奇迹，更凸显了开源精神和硬件潜力的完美结合。它证明，在人工智能飞速发展的时代，创新往往源于对所谓“不可能”的挑战。

（举报）

相关推荐

关键词：

GEO优化技巧有哪些？GEO优化流程方法一览

品牌如何在传统搜索引擎中保持可见度已是必修课。然而，随着AI大模型（如豆包、DeepSeek、文心一言等）逐渐成为人们获取信息的新入口，一个全新的战场正在形成——这就是GEO，即“生成引擎优化”。简单来说，GEO的核心目标是确保当用户向AI提问时，你的品牌能够被AI识别、认可并推荐。这与传统的SEO（搜索引擎优化）有异曲同工之妙，但优化对象从搜索算法的排名结�

GEO优化生成引擎优化 AI大模型
00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

上海交大本科生徐菲悦为第一作者的论文《大型语言模型鲁棒性与对齐的多维评估框架》被IEEE S&P 2026录用。该研究提出“安全魔方”评估体系，构建覆盖攻击、防御与判定三大维度的多指标框架，系统化刻画LLM安全性，新增攻击稳定性、跨模型迁移性等关键度量，弥补传统单一指标不足，为研究比较、安全基线制定及监管审查提供可操作的通用量表。

大型语言模型安全评估 IEEE
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。
火山引擎：豆包大模型日均tokens使用量突破30万亿

今日在FORCE LINK AI创新巡展武汉站上，字节跳动旗下火山引擎披露最新大模型token调用数据。火山引擎总裁谭待现场表示，豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。在企业市场，据IDC9月报告，2025年上半年，中国公有云大模型调用量达536.7万亿tokens。

火山引擎豆包大模型 token调用数据
“中国芯” 扎根煤海：算力赋能智慧矿山，国产方案树行业标杆

山西千万吨级煤矿调度中心通过飞腾与中煤装备合作，实现全链条智能化突破：国产CPU驱动的CPIM平台打破洗选环节进口依赖，井下控制器终结进口PLC垄断，腾云服务器构建自主可控云底座，矿鸿系统实现设备安全互联。项目获行业认证，推动煤炭生产从底层芯片到上层应用全链条自主化，助力“中国芯”成为智慧矿山核心驱动力。

煤矿智能化国产芯片能源安全
来教装展，看全栈自主可控国产教育大模型何以赋能教学？

10月24-26日，第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心，展示五大智慧教育场景：智慧教学通过AI黑板实现师生协同，提升效率；科学教育推出AI虚拟科学家互动平台，激发探索精神；身心健康方案构建体育健康闭环与心理服务体系；教育治理推出数据驱动决策平台；学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校，服务超1.3亿师生，展现AI从工具升级为“教育伴侣”的价值。

教育装备展示会人工智能+教育智慧教学
限时免费送！2台DGX Spark互连缺它不行！超擎数智200G DAC高速铜缆纳秒级互联，算力直达！

全国首批NVIDIA DGX Spark已率先抵达超擎数智。购买两台及以上DGX Spark可免费获赠价值699元的200G DAC高速铜缆，实现双机200Gbps高速互联，消除性能瓶颈。限时福利需在10月31日前完成全款支付，转发活动内容到朋友圈还可额外获赠连接线。数量仅666根，送完即止。此举旨在通过高速互联方案提升AI训练与推理效率，助力用户抢占算力高地。

NVIDIA DGX Spark
李杰公布一加15全方位配置：行业第一部性能Ultra产品

一加15将于10月27日发布，被官方称为行业首款性能Ultra产品。搭载最新第五代骁龙8至尊版处理器、LPDDR5X内存和全新游戏内核，支持165Hz超高帧游戏体验。配备7300mAh电池与120W快充+50W无线充电，采用第三代东方屏和OPPO自研LUMO影像系统。散热方面首发超薄手撕钢VC技术，并具备IP69K防水等级。触控、陀螺仪等核心配置全面升级，带来旗舰级综合体验。

一加15发布性能Ultra 第五代骁龙8至尊版
逗哥配音：以强悍技术团队为引擎，深度驱动用户需求导向的AI创作革新

在短视频创作激烈竞争中，逗哥配音凭借深厚技术实力成为创作者重要工具。其专业团队深耕AI语音领域七年，构建完整技术闭环，通过自研大模型实现多角色自动切换、情感化配音等突破性功能。平台以用户需求为核心，将反馈高效转化为创新功能，近期推出的"AI分角"功能解决了多人对话场景痛点。团队正从配音服务扩展至全链条创作工具，致力于打造一站式智能创作平台，持续引领行业技术革新。

AI配音工具短视频创作语音合成技术
铭凡MS-S1 MAX正式发布：126TOPS总算力的AI工作站，提供 USB4 v2、PCle 4插槽

印凡MS-S1MAX迷你AI工作站体积仅3.3升，集成126TOPS算力，搭载AMD锐龙AI Max处理器与Radeon 8060核显，支持本地运行1280亿参数大模型。配备128GB LPDDR5X内存、双M.2插槽及高速USB4接口，采用先进散热设计实现130W稳定输出。紧凑机身支持灵活部署，为企业本地AI与边缘计算提供高效解决方案。

铭凡MS-S1MAX AI工作站 126TOPS算力

今日大家都在搜的词：

热文

3 天
7天

技术奇迹！清华突破大模型算力难题 RTX 4090单枪匹马就能跑满血版DeepSeek

GEO优化技巧有哪些？GEO优化流程方法一览

00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

火山引擎：豆包大模型日均tokens使用量突破30万亿

“中国芯” 扎根煤海：算力赋能智慧矿山，国产方案树行业标杆

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

限时免费送！2台DGX Spark互连缺它不行！超擎数智200G DAC高速铜缆纳秒级互联，算力直达！

李杰公布一加15全方位配置：行业第一部性能Ultra产品

逗哥配音：以强悍技术团队为引擎，深度驱动用户需求导向的AI创作革新

铭凡MS-S1 MAX正式发布：126TOPS总算力的AI工作站，提供 USB4 v2、PCle 4插槽

今日大家都在搜的词：

热文

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

真我GT8发布：售价2899元起骁龙8至尊版双芯

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机