首页 > 业界 > 关键词  > 清华团队最新资讯  > 正文

技术奇迹!清华突破大模型算力难题 RTX 4090单枪匹马就能跑满血版DeepSeek

2025-02-15 14:07 · 稿源: 快科技

突破大模型算力瓶颈,清华团队再创里程碑

清华大学KVCache.AI团队携手趋境科技,为其开源项目KTransformers带来重磅更新,打破大模型推理算力障碍。

此次更新支持在24GB显存的设备上本地运行DeepSeek-R1、V3的完整版(671B)。其背后蕴藏着异构计算策略的创新突破:

  • 稀疏性利用:采用MoE架构,只激活部分专家模块。非共享稀疏矩阵卸载至CPU内存,结合高速算子处理,显存占用减至24GB。
  • 量化与算子优化:采用4bit量化技术和Marlin GPU算子,效率提升3.87倍。CPU端采用llamafile实现多线程并行,预处理速度高达286 tokens/s。
  • CUDA Graph加速:减少CPU/GPU通信开销,单次解码只需一次完整CUDA Graph调用,生成速度达14 tokens/s。

这一突破极具意义:

  • 降低成本:相比传统8卡A100服务器,单卡RTX 4090方案将整机成本降至约2万元,功耗仅需80W。
  • 赋能中小团队:低成本、低功耗方案为中小团队和个人开发者打开了大模型研究的大门。

清华团队在RTX 4090上运行DeepSeek-R1满血版的案例,不仅彰显了技术奇迹,更凸显了开源精神和硬件潜力的完美结合。它证明,在人工智能飞速发展的时代,创新往往源于对所谓“不可能”的挑战。

举报

  • 相关推荐
  • 学生党必看!三款酷睿Ultra笔记本,覆盖计算机专业学习与创作全场景

    本文针对计算机专业学生面临的设备选择痛点,推荐搭载英特尔酷睿Ultra处理器的高性能笔记本。重点介绍联想YOGA Air14 Aura AI元启2025,其配备酷睿Ultra7-258V处理器、32GB内存和1TB SSD,支持多任务编程、4K视频剪辑及本地AI模型运行。同时推荐荣耀MagicBook Pro14和联想小新14 Pro GT两款高性价比机型,均兼顾性能与便携性,满足学习、开发及创作需求,助力学生高效应对专业挑战。

  • 深入实施“人工智能+”,伊顿助力皓扬数据打造 AI 算力中心标杆

    近日,备受瞩目的《关于深入实施“人工智能+”行动的意见》正式发布,提出六大行动覆盖科技、产业、全球合作等领域。到2030年,新一代智能终端、智能体等应用普及率超90%,为数字基础设施建设勾勒出了宏大版图。北京皓扬云数据科技有限公司(以下简称:皓扬数据)作为国内 AI 算力中心开拓先锋,以覆盖全国的超大规模交付能力服务于数百家头部企业。两位创始人已在�

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

  • AI大模型费用计算器:新手如何不再为选择工具而头疼

    文章探讨了AI工具选择困境,推荐使用AIbase.cn导航站。该站通过分类筛选、标签过滤和对比功能,帮助用户快速找到合适工具,避免信息过载。强调技术应服务于人,好的工具应降低使用门槛,而非增加困惑。

  • AI大模型费用计算器:新手如何避开工具选择的三大坑

    文章指出AI初学者常陷入三个陷阱:盲目选择昂贵工具、被华丽宣传迷惑、忽视隐藏成本。建议使用AIbase.cn等专业平台进行系统化评估,通过费用计算器对比主流模型成本,基于实际需求而非营销话术做决策。关键是要先对比分析再试用,找到真正契合业务需求的解决方案,避免资源浪费。

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • 企业品牌在AI时代的生存之道:深度解析GEO优化的商业价值

    随着传统搜索引擎流量红利见顶,AI生成引擎正成为新的流量洼地。全球超3亿用户使用ChatGPT等AI工具获取信息,企业面临战略转折点。用户行为变革:不再满足搜索结果,而是期望直接、准确的答案。AI依赖语义理解,企业需建立权威性和语义关联,通过高质量内容在AI平台留下印象。GEO优化成为关键,需系统性策略和多平台协同。专业服务商可提供定制方案,助企业抢占AI时代先机。

  • 华为云张平安:坚持打造“算力黑土地”,加速行业智能跃迁

    8月28日,中国国际大数据产业博览会在贵阳开幕。华为云CEO张平安表示,未来十年算力需求将增长数万倍,华为云坚定打造“算力黑土地”,通过昇腾AI云服务和Tokens服务,以高性能、低成本满足客户需求。华为云算力规模同比增长近250%,昇腾AI云服务客户从321家增至1714家。在贵安部署最大规模CloudMatrix384超节点,打造东数西算标杆。张平安强调,需以AI原生思维重构应用、数据和流程,抓住智能时代机遇。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 独家消息:天玑9500 AI算力翻倍,大模型响应速度更快了

    联发科天玑9500完成NPU架构升级,首次引入全新IP硬件。采用“存算一体”高效设计,AI策略从拼性能转向追求均衡能效比。终端AI落地能力增强,旗舰芯片算力提升让手机可运行更聪明的大模型,响应更迅速。日常AI功能如图像处理、视频生成、文本创作等响应更快效果更好。“存算一体”技术通过就地计算降低功耗,减少数据传输更节能。手机AI技术正从“实验室性能”向“用户体验”过渡,算力提升带来更广泛AI应用场景,能效优化保障日常使用稳定性,整体提升手机AI实用价值。

今日大家都在搜的词: