首页 > 传媒 > 关键词  > AI基础设施最新资讯  > 正文

腾讯发布星脉网络2.0,让AI大模型训练效率提升20%

2024-07-03 10:48 · 稿源: 站长之家用户

(腾讯云副总裁王亚晨)

随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。这意味着,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。

AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最 大的算力性能,助力客户在AI大模型的竞争中领先。

AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。

为支撑AIGC中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。

然而,集群规模越大,所产生的通信损耗会越高;同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最 大可达50%。同时,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到最 低。

如何在大规模组网前提下,提升通信效率、降低通信占比,让训练稳定高可用,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。

数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。整体能力处于业界顶 尖水平。

四大组件全面升级,助力AI训练提速

腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。

(腾讯云副总裁王亚晨)

硬件方面,腾讯星脉网络是业界首 个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。

值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首 款为AI训练设计的网卡,网卡采用最 新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最 高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。

相比起上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵;并通过拥堵智能调度,实现网络拥塞快速自愈。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

专为星脉网络设计的高性能集合通信库TCCL,也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级,在MoE模型训练下,给星脉网络带来了30%的通信效率提升,让模型训练效率提升10%。

TCCL 对外的接口跟原生通信库接口完全一致的,主流AI大模型客户不需要额外适配,只需要替换通信库就可以发挥星脉的能力。

通信协议TiTa与通信库TCCL的升级带来的效果叠加,让星脉网络的通信效率提升60%,MoE大模型训练效率提升20%。

网络的故障或任何单点的故障,将导致整个集群不可用,让模型训练暂停。因此,网络的高可用、稳定性也极为重要。为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,这也是星脉网络第四大关键组件。

运营系统2.0新增腾讯独 家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。

打造最适合大模型的云

目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

大模型训练集群在HCC将高性能云服务器作为节点,满配最 新代次的GPU,节点之间通过自研星脉网络互联,提供高性能、高带宽和低延迟的一体化高性能计算产品。

腾讯云AIGC云存储解决方案是国内首 个实现存储引擎全面自研的云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求,可支持千亿级向量规模存储,万级 QPS 及毫秒级查询延迟,适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务,实现企业数据接入AI的效率比传统方案提升10倍。

腾讯云打造了天御AIGC全链路的内容安全解决方案,提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系,护航企业从模型训练到事后运营全过程的内容安全建设。

同时,在自身AI基础设施支撑下,腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术,腾讯搭建起万卡AI训练集群,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;推理成本相比业界主流框架下降70%,并且支持国产主流硬件的适配。

腾讯混元已扩展至万亿级参数规模,采用混合专家模型(MoE)结构,在通用基础能力和专业应用能力方面处于国内主流大模型领先地位。无论是企业客户还是个人开发者,都可以通过腾讯云上API直接调用腾讯混元,实现更便捷的智能化升级。腾讯还联合生态伙伴,将大模型技术与20多个行业结合,提供超50个行业大模型解决方案。

大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底层AI基础设施,助力企业把握AI时代。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 平安云原生AI算力资源调度平台,荣获IDC “AI-就绪数字基础设施领军者优秀奖”

    近日,IDC公布2025年中国未来企业大奖获奖名单,平安科技打造的《云原生AI算力资源调度平台》创新项目荣获“AI就绪数字基础设施领军者优秀奖”。该平台通过统一资源池化管理、动态调度及GPU虚拟化等技术,显著提升资源利用率约30%,降低运营成本,并支持金融级高可用与弹性伸缩,助力企业高效应对AI推理与训练场景需求,体现了平安在AI基础设施构建与产业赋能方面的技术实力与国际认可。

  • 下一代企业 AI 基础设施要来了?云天励飞与金蝶共建融合新范式

    11月4日,云励飞与金蝶在2025全球创见者大会上签署战略合作协议。双方将以企业数字化软件生态与国产AI算力底座为双引擎,打通“算力-软件-场景”全链路,推动AI推理能力融入企业数字化全流程,打造国内首个算力与软件生态深度融合标杆。未来计划联合推出软硬件一体化方案,共建实验室,聚焦技术攻关与行业创新,优化AI在企业管理中的应用体验,助力政企数字化智能化转型,为国产算力规模部署提供实践路径。

  • 网信办宣布开展“整治网络直播打赏乱象”专项行动

    中央网信办自即日起开展为期2个月的"清朗·整治网络直播打赏乱象"专项行动,重点整治四类问题:严查低俗团播诱导打赏行为;深入治理虚假人设欺骗打赏现象;严格管控诱导未成年人打赏问题;着力遏制刺激用户非理性打赏倾向。专项行动要求各地网信部门细化工作措施,督促平台完善审核标准、打赏规则和限额管理,健全投诉举报机制。对屡教不改的账号、平台及MCN机构将依法严惩并曝光典型案例,推动形成网络直播打赏问题常态化治理格局。

  • 科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书

    当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进,供应链加速本土化,AI从前沿技术跃升为核心生产力。麦肯锡研究显示,生成式AI有望为全球经济贡献7万亿美元,中国预计占2万亿美元,接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求,企业需构建新一代数据基础设施,实现数据生产、治理与AI应用的动态融合,突破"数据烟囱",支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升,成为智能社会的核心引擎。

  • 孩子们满嘴“包的”“666”该怎么办引热议 小学老师:喜欢说网络热梗是偷懒

    江西一位小学教师因引导学生用"我很有信心""我势在必得"等优美表达替代网络热梗"包666"引发热议。她认为依赖网络用语是思维懒惰,希望学生掌握文明优美的语言表达。媒体指出网络热梗虽有趣实用,但会限制语言表达和深度思考能力。网友观点两极:有人认为课堂应规范语言,网络用语可保留生活趣味;另一些人强调需培养青少年在不同语境自如切换的表达能力。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

  • 游族网络前三季度营收与净利润双增长,全球化游戏研运质效双升,AI生态布局全面加速

    游族网络2025年三季报显示,公司前三季度营收101.9亿元,同比增长2.20%;净利润7.64亿元,同比大幅增长1374.60%。第三季度业绩延续增长态势,主要得益于全球化战略推进、AI技术深度融合及产品精细化运营。旗下《少年三国志》《新盗墓笔记》等产品通过版本迭代与跨界联动提升用户粘性。公司积极布局AI业务,推出智能平台YOOZOO.AI,并拓展算力合作,强化研发效能。同时,游族持续践行社会责任,开展公益项目并推动中华文化数字化传承。

  • 苹果前员工因名叫“三星”走红网络:最终他选择改名

    苹果前员工因撞名三星走红网络,他最终选择改名。 据媒体报道,2012年,一位名叫Sam Sung的苹果零售店员工意外走红,因他的名字Sam Sung跟苹果竞争对手三星的英文(Samsung)字母一致,而且二者的发音接近。 Sam Sung在接受采访时详细讲述了那段经历以及自己最终决定改名的原因。2012年,有人在社交平台上发布了Sam Sung的苹果工作名片,相关内容迅速传播开来。苹果方面随即�

  • 双11品质之选:前行者旗舰产品限时特惠,高性能外设入手正当时

    2025年双11期间,国产外设品牌前行者(EWEADN)凭借高性能产品与诚意优惠成为消费焦点。其明星产品X87S机械键盘支持三模连接、双8kHz回报率与12000mAh长续航,叠加补贴后到手价低至279元;S9大师版鼠标搭载快充芯片与旗舰传感器,满足电竞需求;DEEP80键盘以百元级价格实现0.08ms超低延迟。品牌在抖音、天猫、京东三大平台通过秒杀价、限时立减、满赠礼品等策略形成购买吸引力,多款键鼠产品斩获细分榜单TOP1。建议用户按场景选择:电竞玩家优选X87S+S9组合,办公学习可侧重DEEP80等高性价比产品,趁双11福利入手正当时。

  • 海尔智家前三季度SKU效率提升15.6%

    海尔智家2025年三季报业绩超预期,前三季度营收2340.5亿元,同比增长10%;归母净利润173.7亿元,创历史新高。这一成绩得益于公司持续推进数字化战略,通过全球研发与智能制造体系提升效率,SKU效率提升15.6%。AI产品如懒人洗系列销量突破20万台,带动品类增长;AI套系产品占比提升,激发用户换新需求;AI生活应用通过智能家电延伸至全屋体验。公司以创新优化运营,强化市场竞争力,为可持续发展奠定基础。

今日大家都在搜的词: