首页 > 传媒 > 关键词  > AI渗透最新资讯  > 正文

中国首个国产AI推理千卡集群落地 云天励飞助力打造湛江市“AI渗透之城”

2026-03-13 09:31 · 稿源: 站长之家用户

3 月 12 日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4. 2 亿元。项目将基于云天励飞自研的国产AI推理加速卡,中国首个全栈国产AI推理千卡集群。

该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。标志着湛江人工智能产业发展迈出实质性步伐,“AI渗透之城”建设进入全面提速的新阶段。

一、AI算力从“训练优先”走向“推理优先”

智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。

在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从 0 到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的SeeDance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。根据Gartner预测,到 2026 年,约55%的AI专用云基础设施支出将用于推理工作负载。

过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,为传统产业的AI化提供直接支撑。湛江是国产大模型DeepSeek创始人梁文峰的家乡。作为湛江首批城市合伙人,云天励飞此前已在深化AI业务赋能等方面开展了前瞻性探索。

2025 年 1 月,DeepSeek R1 发布后,云天励飞成为首批完成适配的国产芯片企业。据悉,公司也在积极准备DeepSeek V4 适配工作。未来旗下的AI推理加速卡将全面承载 DeepSeek 大模型能力,赋能千行百业。

作为AI推理芯片领域的领军者,云天励飞已实现芯片全链条的自主研发。此次建设的千卡集群基于其自主研发的全国产AI加速卡打造,具备多卡高效扩展与分布式并行推理能力,能够稳定支持千亿参数大模型的高效运行。该集群成功破解了传统智算中心“重规模、轻应用”的发展瓶颈,通过大幅降低算力成本,使算力真正服务于具体业务,成为惠及千行百业的普惠基础设施。

二、面向推理时代的千卡集群架构

在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。

其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。

与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。

在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。

此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。

该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。

在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。

在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。

此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。

通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。

三、自研芯片构建低成本推理能力

据悉,本次AI推理集群将全部采用云天励飞自研的国产AI推理加速卡建设。

其中,一期项目将部署云天励飞 X6000 推理加速卡;未来将率先搭载公司最新一代芯片产品。

根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品:

第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为各类AI Agent提供基础算力支撑。

第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。

第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。

其中,首款Prefill芯片DeepVerse100 预计将在年内完成流片,并计划在湛江集群中率先部署。

在更长期的规划中,云天励飞提出“ 1001 计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。

过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。

换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。

湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。

在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点 8 卡、 32 卡,到 64 卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。

随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。

在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。

此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。

四、构建产业新生态 助力湛江打造“AI渗透之城”

作为广东省域副中心城市及粤西与北部湾城市群核心枢纽,湛江同时肩负“一带一路”海上合作支点城市、全国海洋经济创新发展示范城市的双重国家级战略定位。依托得天独厚的区位优势与政策赋能,湛江正锚定数字经济赛道,走出一条独具特色的人工智能产业高质量发展之路。

2025 年,湛江率先提出建设“AI渗透之城”的发展目标,将人工智能作为抢占新赛道、培育新质生产力的核心抓手,以全场景渗透赋能城市高质量发展。此次重点建设的AI推理集群,由云天励飞牵头承建,华为、中国移动等领军企业作为核心生态伙伴深度参与。

项目建成后,将全面构建起自主可控、安全高效、弹性调度的普惠算力底座,彻底打通算力供给、技术适配、场景落地与产业孵化的全链条。这将为湛江基础设施升级、现代产业壮大、民生保障提质、城市建设提效提供稳定且低成本的国产化算力支撑,并为各垂直领域AI智能体的研发、测试及规模化应用提供全流程技术保障,真正实现“算力下沉、场景上云、AI渗透”,为湛江新质生产力发展注入核心动能。

各方将以“百万Token一分钱”的普惠战略为核心抓手,以湛江为实践基地,携手推动AI大模型技术的大规模落地。此举不仅为湛江本地产业数字化转型与数字经济提质升级注入核心动能,更有望将这套普惠AI发展模式推广至千城百市,为全国人工智能产业的规模化、普惠化发展提供可复制的实践范本。

未来,湛江将继续锚定省域副中心城市建设总目标,深入实施创新驱动发展战略。以“AI渗透之城”建设为总牵引,湛江将持续完善人工智能新型基础设施布局,深化AI在经济社会各领域的全场景渗透与全链条赋能。




推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 投资全链路AI基础设施,美团加速AI进入“物理世界”

    ​过去几年,AI每一次进化,都在向前推进一步:从Chatbot的提问框,到Agent的云电脑,再到OpenClaw这样能同时操控本地与云端的新一代产品,AI的边界,正在不断向真实环境延伸。 但有一道墙,始终没被穿透,那就是屏幕。 屏幕里的世界,AI已经跑得很快了,但屏幕外的世界,它几乎还没迈进去。毕竟,物理世界里有太多难以数字化的东西了,大模型能回答你“最近的药店在哪�

  • 魔搭社区发布业界首份AI开源生态万人调研报告,开源已成AI创新关键基础设施

    4月14日,魔搭社区在2026世界互联网大会亚太峰会上发布《AI开源生态的全球价值与实践探索》报告。该报告基于超万名真实用户调研,系统梳理了开源技术如何重塑全球创新路径、深化国际治理协作,并剖析其在社会公益与智能生活场景中的最新产业实践。报告指出,AI开源正从少数机构的技术共享,全面演进为全社会可参与的公共创新基础设施。

  • 百度百舸 x 昆仑芯助力GLM-5.1规模化应用 百度智能云打造国产算力基础设施

    4月8日,智谱开源新一代大模型GLM-5.1,整体能力全面提升。在代码能力上,GLM-5.1在SWE-bench Pro基准测试中超越GPT-4o、Claude 3 Opus,刷新全球最佳成绩。此外,GLM-5.1在长程任务处理能力上实现显著突破,可在单次任务中持续、自主工作长达8小时,交付完整的工程级成果。百度百舸基于昆仑芯硬件平台第一时间完成GLM-5.1的模型适配与集群部署,助力最新开源大模型快速投入生产环境的大规模应用。

  • Klickl 随阿布扎比王储访华 深化中阿数字金融基础设施协同

    2026年4月,阿联酋高级别代表团访华,推动两国全面战略伙伴关系提质升级。期间,阿联酋金融科技核心企业Klickl与阿布扎比全球市场(ADGM)签署战略合作协议,聚焦数字金融基础设施建设、跨境支付与数字资产合规服务,旨在拓展中阿在数字经济与跨境金融领域的合作空间。此次合作反映了中阿经贸合作正从传统贸易往来迈向更高层次的产业协同与制度衔接,为双边关系发�

  • 破解AI推理“内存墙”:忆联自研芯片,以压缩技术重塑KV Cache存储效率

    2026年3月,谷歌研究院发布TurboQuant压缩算法,旨在解决大模型推理中KV Cache内存占用过高的问题。该技术可压缩KV缓存,实现内存占用降低6倍、推理速度提升8倍的潜力。面对KV Cache随上下文窗口扩大而指数级膨胀的挑战,产业界正从算法压缩与硬件优化两方面寻求突破。作为国内企业级存储方案提供商,忆联创新性地将高效压缩技术融入AI推理场景,打造兼具高性能与成本优势的硬件级KV Cache存储优化方案,为行业破解“内存墙”困局提供新路径。

  • 每日互动参加2026未来数商大会 数据流通基础设施“发数站”获开元奖

    4月2日,2026未来数商大会在杭州开幕,聚焦“数据定义智能”主题,汇聚全国600余位专家与行业代表。大会探讨了人工智能时代数据产业的发展路径,强调数据要素市场化配置改革的重要性。每日互动(股票代码:300766)受邀参会,总裁刘宇发表演讲,分享公司通过“云边端库”混合架构推出的新一代智能终端“个知·智能工作站”,旨在解决政企数据安全与成本难题,实现数

  • 推理业务大增238.2%,天数智芯领跑AI推理新纪元

    2025年中国AI算力产业进入效率驱动新阶段,大模型竞争从参数比拼转向集群稳定性、推理成本与全场景渗透的综合较量。国内通用GPU龙头天数智芯披露年度数据,全年营收103.4亿元,同比增长91.6%,毛利率与营收双提升。其通用GPU产品收入92.3亿元,同比增长149.6%,成为业绩支柱。公司依托全栈自研软件栈,实现新模型、新算子的“Day0”原生支持,并推出面向云边端全面布局的端侧算力产品。天数智芯坚持“量产一代、设计一代、预研一代”的三位一体研发战略,下一代产品正针对大规模训练、新兴大模型推理持续优化,保持技术前瞻性。此次财报亮点不仅标志着企业自身商业里程碑,更向行业传递明确信号:国内通用GPU的竞争已从“有没有”转向“优不优”的能效与生态较量,成为中国AI算力产业自主创新的核心支撑力量。

  • “硅碳”携手赋能新质生产力——拥抱人工智能体开启企业智能化改造新征程

    迈入2026年,AI(人工智能)的发展已逐步在全球掀起热潮。当下,以“硅基员工”(代指人工智能体)为核心的人工智能体正在企业中加速部署,AI驱动的技术革命浪潮正以磅礴之势向我们奔涌而来。AI领域实践者们,每日都在焦虑与振奋中前行。 焦虑源于AI技术的极速迭代,若不奔跑,连留在原地都是一种奢望;振奋则因躬逢其盛,以自研AI模型推动效率革命,以打造专攻术业的�

  • 武文洁博士履新趋境科技 加速 AI Token 生产技术全球落地

    趋境科技宣布金融与战略专家武文洁博士加盟并出任总裁,完善公司顶尖人才矩阵。武博士拥有丰富投资并购及全球化运营经验,将统筹公司战略执行与财务管理,加速高效能AI Token生产技术规模化落地,推动公司全球化布局。趋境科技已汇聚顶尖学术科研与商业力量,致力于通过底层技术突破和全场景产品应用,构建从技术到生态的完整创新闭环,以硬核科技驱动产业变革,共建高效普惠的AI算力新生态。

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

今日大家都在搜的词: