首页 > 传媒 > 关键词  > 阿里云最新资讯  > 正文

阿里云发布全栈AI负载高可用 与用户共建AI时代云上IT新治理

2024-12-27 11:56 · 稿源: 站长之家用户

12 月 17 日上午,在中国信息通信研究院主办的 2024 第五届“GOLF+IT新治理领导力论坛”主论坛上,阿里云重磅发布了全栈AI负载高可用架构,以满足AI大模型企业级应用在大规模参数量、复杂结构和高性能算力背景下,对云服务处理能力可扩展性、服务连续性、服务质量和故障快速恢复的需求。

以为生成式 AI 打造持续的卓越用户体验为目的,阿里云全栈AI负载高可用架构可达到GPU故障预测准确率92%,千卡规模集群连续训练有效时长大于99%,秒级模型自动保存、分钟级故障恢复;每分钟 10000 个pod扩展,分钟级自动扩容;核心模型服务99.99%的API SLA,模型应用服务全链路可观测等重要的AI业务高可用目标,在大规模数据处理和训推场景下,实现了对Gen AI应用业务连续性、响应速度、稳定性和安全性的全面保障。

在论坛上, 2025 年中国数字化治理领域比较新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估比较高等级。

阿里云全栈AI负载高可用架构正式发布

在AI算力需求逐渐超越通用需求的今天,以GenAI为代表的应用场景和技术倍增,云上企业需要处理和存储的数据量呈指数增长,AI驱动的应用在高负载情况下,对保障业务的连续性、响应速度、稳定性和安全性均提出了更高要求。

为此,阿里云在升级云平台自身的技术服务能力的同时,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等AI负载高可用全面融入云平台架构设计,围绕大模型训练微调、推理、多模态数据处理等环节,构建具备“高可用模型训练、灵活弹性的推理资源、数据高可靠”特性的全栈AI负载高可用架构,实现了从通用负载向AI负载的可用性演进,为客户AI业务构建提供稳定的业务服务和出色的用户体验。

在高可用模型训练方面,阿里云AI基础设施高可用能力融入云服务整体架构设计,基于AI算法的故障预测,实现训推环节的性能瓶颈分析和潜在故障分析,GPU故障预测准确率达92%,同时将异常预测接入自愈链路,训练恢复自愈率超90%、千卡规模集群连续训练有效时长大于99%,实现秒级模型自动保存、分钟级故障恢复;同时,CPFS 高性能存储集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加频繁的 Checkpoint 读写,能够更好地防止数据丢失,并提升训练的稳定性和可靠性。在网络层面,阿里云自研的高性能网络,业界首创双平面的高可用网络架构,网络Link和设备中断,训练任务不中断。

在推理资源方面,阿里云容器计算服务ACS的弹性能力实现每分钟可以进行 10000 个pod扩展,分钟级自动扩容;PAI-EAS模型在线服务,适用于实时推理、近实时异步推理等多种AI推理场景,能感知每个请求的执行进度,做到更公平的任务调度,提高扩缩容效率。同时,阿里云将跨区域的主动式重路由技术运用到数据中心间的通信,从而在跨数据中心推理网络上,达到跨域带宽业界比较高的 99.995% SLA,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。

对于在实时语音交互、实时AI搜索等高性能场景有推理需求的客户,阿里云百炼模型服务平台,基于预训练模型为用户提供模型推理与应用构建托管服务,核心模型服务API达到 99.99% SLA,高性能场景核心用户用例中的首包延时小于 300 毫秒,能够有效解决应用开发、模型调用等过程中的跨区域TPM限制、高并发需求下API响应变慢等问题,提升Gen AI应用推理与构建时的用户体验。

在数据高可靠方面,阿里云数据存储与数据库服务面向不同计算引擎、多种 AI 框架进行了深度集成,形成承载PB级甚至EB级大规模数据统一的存储底座,同城冗余容灾,高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作保障数据服务高可靠,向上支撑面向单AZ, 双AZ, 三AZ及跨Region的高可用服务,跨Region AI数据的就近读写和负载均衡,满足AI数据多活的强一致性,AI数据冷备、热备、故障自动切换,解决AI数据故障风险。

AI时代与用户共建云上的IT新治理

AI时代的浪潮中,企业对于高可用架构的需求不仅仅停留在节点的稳定性上,而是在更高的层面追求智能化运营。阿里云全栈AI负载的高可用架构已为企业奠定了坚实的技术基础,而进一步的挑战则在于如何提升云上系统的运维管理与治理能力。通过与用户携手,阿里云致力于在云环境中构建一个AI-Native的智能化、自动化和可持续的IT治理体系,为企业的创新之路保驾护航。

阿里云根据多年服务客户的经验总结为一系列的方法论和架构设计原则,推出了阿里云卓越架构 Well-Architeched Framework,意在帮助企业在云上构建一个安全、稳定、有效的应用环境。面向AI技术融入带来的更复杂更大规模的,根据云计算的弹性、实时交付、自助化等特点,阿里云卓越架构进一步升级了用云企业运维管理和治理规则基线的理想实践,依靠Well-Architeched云卓越架构来学习-度量-优化,落地治理潜在的风险隐患,从安全、稳定、效率、成本、性能五大支柱全面提升系统整体韧性和运营效率。

阿里云开放平台负责人何登成表示,“在云上构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保提供的云服务可用性符合或超过阿里云服务等级协议;用户需要根据业务需求,选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,来确保云上应用的可靠性。”

尤其在AI迅猛发展的今天,企业更应让业务系统利用现代云平台的基础设施达到高可用,总结成三个"面向":面向失败的设计架构,面向精细的运维管控,面向风险的应急快恢。同时,用户可以在建设持续稳定的云环境过程中,面向AI并结合AI,通过良好的AI模型训推架构设计、AI数据资产处理与存储、智能诊断与风险预测等手段,进一步提升系统可用性、可靠性、可持续性。

阿里云获信通院企业用云治理能力成熟度评估比较高等级 

据信通院发布的《企业用云治理能力成熟度分级要求》,企业用云治理能力成熟度评估共分为L1-L5 共 5 个等级,分别为L1 基础级、L2 应用级、L3 优秀级、L4 先进级、L5 卓越级。该分级要求不仅适用于对云服务使用方用云治理能力成熟度进行评估,也适用于对云服务提供商云服务治理产品、技术能力成熟度进行评估。阿里云测评结果为L4+,是目前阶段云服务提供商实际获得的比较高等级。

此前,阿里云企业用云治理能力曾两度获得信通院评测认可,包括 2022 年“企业云治理能力成熟度模型”获信通院科技治理领域年度明星解决方案及产品; 2023 年“云治理中心”获信通院科技治理领域年度明星解决方案。

今年,针对企业用云发展路径、企业云治理发展趋势分析与洞察,阿里云联合埃森哲发布《云治理企业成熟度发展 2024 年度报告》(https://developer.aliyun.com/ebook/8419),报告调研取样来自 400 多家企业客户,横跨互联网、金融、新零售、交通等多个行业,旨在帮助用户理解云治理概念、企业用云实践的现状及变迁趋势,并基于云治理框架的五大分类(即稳定性、安全合规、成本效益、有效性能、卓越运营),报告作为企业云上旅程的实践样本,为面向AI时代做好IT新治理和云上架构优化提供更多的参考与决策依据。

(完)

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 阿里云全栈AI技术引擎驱动SaaS企业全球化升级 构建出海新范式

    全球SaaS市场正以16.4%的年复合增长率迈向万亿规模,中国企业引领的智能化升级正在改写行业全球化叙事。阿里云发布"全栈AI+全球化"技术体系,通过端到端技术栈重构打造可扩展、低门槛的全球化智能基座,释放技术红利。通义千问大模型通过参数效率优化突破AI规模化应用的经济性瓶颈,支持119种语言适配不同市场。e签宝推出行业首个智能合同Agent,实现合同全生命

  • AI火花集 | 阿里云携手天使智汇,AI赋能让护理“降负荷、提效能、保安全”

    文章探讨了护理工作在医疗康复中的重要性,指出护士工作量和专业素养直接影响患者死亡率。研究显示,护士工作量每增加1名患者,30天内死亡风险上升7%;而学士学位护士比例每提高10%,死亡率可降低7%。中国虽规定病床与护士配比不低于1:0.4,但多数医院未达标。天使智慧公司自2018年起专注中医护理数字化,通过"悠小护"等产品服务超2000家医疗机构,并借助阿里云通义大模型技术实现培训、考评等全场景AI升级。未来计划3-5年内构建AI驱动的智能护理体系,从工具升级为决策伙伴,改变传统护理模式。

  • 华为云发布盘古大模型5.5,宣布新一代昇腾AI云服务上线,成就行业AI先锋

    华为开发者大会2025(HDC2025)在东莞篮球中心开幕,发布多项AI创新成果:1)推出基于CloudMatrix384超节点的新一代昇腾AI云服务,单卡推理吞吐量提升4倍;2)发布盘古大模型5.5,NLP、CV等五大基础模型全面升级,其中718B深度思考模型采用256专家MoE架构;3)推出行业首个统一预测架构Triplet Transformer,覆盖钢铁、水泥等多个工业场景;4)发布300亿参数视觉大模型,支持多维感知分析;5)升级盘古助手Doer,新增6大开发领域专业Agent。华为云宣布开发者突破800万,将构建昇腾、鸿蒙、鲲鹏等技术生态。

  • 硅基流动入驻阿里云云市场,核心API服务将全面接入阿里云百炼平台

    6月18日,AI基础设施企业硅基流动与阿里云达成战略合作,加入阿里云"繁花计划"并入驻云市场。其大模型推理平台SiliconCloud的核心API服务将全面接入阿里云百炼平台,借助阿里云灵骏智能计算集群的算力支持,为客户提供开箱即用的大模型服务。作为国内增长最快的第三方MaaS平台,SiliconCloud已集成通义千问Qwen3、DeepSeek等百余款主流开源大模型,累计服务600万用户与数千家企业客户。此次合作将增强平台在推理场景下的弹性扩展能力,未来双方还将在算力协同、行业解决方案共建等方面深化合作。

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 强强联合:阿里云上的Salesforce以AI技术赋能制造行业,全链路业务焕发数智动能

    2025年第十一届全国CIO大会在西安召开,聚焦"AI+数据赋能业务场景"主题。阿里云与燧羊联合举办分论坛,探讨AI落地困境与解决方案。企业网D1net CEO范脡指出,企业需平衡数据安全与业务效率,数据安全成为选择合作伙伴的重要考量。阿里云上的Salesforce与燧羊产品兼具安全性与业务效率提升功能。阿里云智能集团杨霄凡分享Salesforce本土化实践,强调构建"人+数据+AI"融合体系。雅戈尔集团CIO王欣探讨AI时代数据质量的重要性,亚萨合莱亚太区IT总监邹栋展示制造业数字化转型案例。大会期间,阿里云与燧羊联合展区展示多项AI应用成果,吸引众多企业参观交流。

  • 阿里云首款AI原生开发环境工具AI IDE上线:适配千问3 可调用3000多款工具

    AI IDE还全面支持长期记忆、行间建议预测(NES-Next Edit Suggestion)、行间会话(Inline Chat)等能力,为开发者带来更丝滑、更智能的编程体验。 据悉,在通义灵码AI IDE上线后,通义灵码拥有插件和IDE两种产品形态。 深度融入开发者工作流,实现从辅助编码到沉浸式智能开发的跨越,全面覆盖开发者的工作场景。

  • 共建可信AI,共治智能未来 “生成式 AI 进展:应用、治理与社会影响”研讨会成功举办

    5月22日,腾讯研究院与新加坡管理大学数字法研究中心联合举办"生成式AI进展:应用、治理与社会影响"研讨会。会议汇聚中新两国近百名专家学者,围绕生成式AI的技术趋势、产业应用、监管治理、社会伦理等议题展开讨论。腾讯高级副总裁郭凯天强调AI不仅是技术革命,更是人类社会的深刻变革,应构建开放共享的AI生态。新加坡国立大学教授Mohan Kankanhalli指出生成式A

  • 份额增速双领跑,阿里云引领中国金融云进入全面智能化新阶段

    IDC最新报告显示,2024年中国金融云市场规模达692亿元,同比增长11%。阿里云以18.4%的份额稳居第一,增速16%远超行业均值,实现份额与增速"双领跑"。自2019年起,阿里云已连续6年蝉联中国金融云市场冠军,覆盖6大核心子领域。当前金融云市场呈现多元化发展趋势,主要受金融机构IT支出增长驱动,特别是在智算基础设施、大模型应用创新及核心系统改造等方面。阿里云凭借全栈AI云实力构建技术壁垒,推动金融行业从技术升级走向智能服务能力竞争。报告指出,阿里云在公有云基础设施市场以41%份额领先,平台解决方案市场份额攀升至33%,基于AI大模型和核心云原生方案实现纵深突破,形成覆盖IaaS、PaaS、MaaS全技术栈的服务闭环。未来,阿里云将通过三大能力矩阵重塑行业格局:全面一体化云技术架构升级、金融大模型开放生态矩阵及全球化服务护航金融科技出海。

  • 阿里云”618创新加速季“开启:先进、领先的大模型限免 超7000万 token,加速多场景 AI 应用落地

    阿里云启动"618创新加速季"活动,聚焦AI创新与云端智能,推出多项优惠:1)提供7000万+免费大模型token体验及最高1728元优惠券;2)通义大模型限免超7000万token,推出10-100元多档资源包,GPU服务0.9折起;3)PAI平台推出通用节省计划,最低3折;4)针对中小企业推出AI火花会主题活动,提供场景化定制服务;5)基础云产品全线优惠,包括轻量服务器38元/年、RDS MySQL 88元/年等。活动还包含5亿算力补贴计划、10万元出海满减券等专项支持,助力企业智能化升级。