首页 > 传媒 > 关键词  > 阿里云最新资讯  > 正文

阿里云发布全栈AI负载高可用 与用户共建AI时代云上IT新治理

2024-12-27 11:56 · 稿源: 站长之家用户

12 月 17 日上午,在中国信息通信研究院主办的 2024 第五届“GOLF+IT新治理领导力论坛”主论坛上,阿里云重磅发布了全栈AI负载高可用架构,以满足AI大模型企业级应用在大规模参数量、复杂结构和高性能算力背景下,对云服务处理能力可扩展性、服务连续性、服务质量和故障快速恢复的需求。

以为生成式 AI 打造持续的卓越用户体验为目的,阿里云全栈AI负载高可用架构可达到GPU故障预测准确率92%,千卡规模集群连续训练有效时长大于99%,秒级模型自动保存、分钟级故障恢复;每分钟 10000 个pod扩展,分钟级自动扩容;核心模型服务99.99%的API SLA,模型应用服务全链路可观测等重要的AI业务高可用目标,在大规模数据处理和训推场景下,实现了对Gen AI应用业务连续性、响应速度、稳定性和安全性的全面保障。

在论坛上, 2025 年中国数字化治理领域比较新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估比较高等级。

阿里云全栈AI负载高可用架构正式发布

在AI算力需求逐渐超越通用需求的今天,以GenAI为代表的应用场景和技术倍增,云上企业需要处理和存储的数据量呈指数增长,AI驱动的应用在高负载情况下,对保障业务的连续性、响应速度、稳定性和安全性均提出了更高要求。

为此,阿里云在升级云平台自身的技术服务能力的同时,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等AI负载高可用全面融入云平台架构设计,围绕大模型训练微调、推理、多模态数据处理等环节,构建具备“高可用模型训练、灵活弹性的推理资源、数据高可靠”特性的全栈AI负载高可用架构,实现了从通用负载向AI负载的可用性演进,为客户AI业务构建提供稳定的业务服务和出色的用户体验。

在高可用模型训练方面,阿里云AI基础设施高可用能力融入云服务整体架构设计,基于AI算法的故障预测,实现训推环节的性能瓶颈分析和潜在故障分析,GPU故障预测准确率达92%,同时将异常预测接入自愈链路,训练恢复自愈率超90%、千卡规模集群连续训练有效时长大于99%,实现秒级模型自动保存、分钟级故障恢复;同时,CPFS 高性能存储集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加频繁的 Checkpoint 读写,能够更好地防止数据丢失,并提升训练的稳定性和可靠性。在网络层面,阿里云自研的高性能网络,业界首创双平面的高可用网络架构,网络Link和设备中断,训练任务不中断。

在推理资源方面,阿里云容器计算服务ACS的弹性能力实现每分钟可以进行 10000 个pod扩展,分钟级自动扩容;PAI-EAS模型在线服务,适用于实时推理、近实时异步推理等多种AI推理场景,能感知每个请求的执行进度,做到更公平的任务调度,提高扩缩容效率。同时,阿里云将跨区域的主动式重路由技术运用到数据中心间的通信,从而在跨数据中心推理网络上,达到跨域带宽业界比较高的 99.995% SLA,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。

对于在实时语音交互、实时AI搜索等高性能场景有推理需求的客户,阿里云百炼模型服务平台,基于预训练模型为用户提供模型推理与应用构建托管服务,核心模型服务API达到 99.99% SLA,高性能场景核心用户用例中的首包延时小于 300 毫秒,能够有效解决应用开发、模型调用等过程中的跨区域TPM限制、高并发需求下API响应变慢等问题,提升Gen AI应用推理与构建时的用户体验。

在数据高可靠方面,阿里云数据存储与数据库服务面向不同计算引擎、多种 AI 框架进行了深度集成,形成承载PB级甚至EB级大规模数据统一的存储底座,同城冗余容灾,高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作保障数据服务高可靠,向上支撑面向单AZ, 双AZ, 三AZ及跨Region的高可用服务,跨Region AI数据的就近读写和负载均衡,满足AI数据多活的强一致性,AI数据冷备、热备、故障自动切换,解决AI数据故障风险。

AI时代与用户共建云上的IT新治理

AI时代的浪潮中,企业对于高可用架构的需求不仅仅停留在节点的稳定性上,而是在更高的层面追求智能化运营。阿里云全栈AI负载的高可用架构已为企业奠定了坚实的技术基础,而进一步的挑战则在于如何提升云上系统的运维管理与治理能力。通过与用户携手,阿里云致力于在云环境中构建一个AI-Native的智能化、自动化和可持续的IT治理体系,为企业的创新之路保驾护航。

阿里云根据多年服务客户的经验总结为一系列的方法论和架构设计原则,推出了阿里云卓越架构 Well-Architeched Framework,意在帮助企业在云上构建一个安全、稳定、有效的应用环境。面向AI技术融入带来的更复杂更大规模的,根据云计算的弹性、实时交付、自助化等特点,阿里云卓越架构进一步升级了用云企业运维管理和治理规则基线的理想实践,依靠Well-Architeched云卓越架构来学习-度量-优化,落地治理潜在的风险隐患,从安全、稳定、效率、成本、性能五大支柱全面提升系统整体韧性和运营效率。

阿里云开放平台负责人何登成表示,“在云上构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保提供的云服务可用性符合或超过阿里云服务等级协议;用户需要根据业务需求,选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,来确保云上应用的可靠性。”

尤其在AI迅猛发展的今天,企业更应让业务系统利用现代云平台的基础设施达到高可用,总结成三个"面向":面向失败的设计架构,面向精细的运维管控,面向风险的应急快恢。同时,用户可以在建设持续稳定的云环境过程中,面向AI并结合AI,通过良好的AI模型训推架构设计、AI数据资产处理与存储、智能诊断与风险预测等手段,进一步提升系统可用性、可靠性、可持续性。

阿里云获信通院企业用云治理能力成熟度评估比较高等级 

据信通院发布的《企业用云治理能力成熟度分级要求》,企业用云治理能力成熟度评估共分为L1-L5 共 5 个等级,分别为L1 基础级、L2 应用级、L3 优秀级、L4 先进级、L5 卓越级。该分级要求不仅适用于对云服务使用方用云治理能力成熟度进行评估,也适用于对云服务提供商云服务治理产品、技术能力成熟度进行评估。阿里云测评结果为L4+,是目前阶段云服务提供商实际获得的比较高等级。

此前,阿里云企业用云治理能力曾两度获得信通院评测认可,包括 2022 年“企业云治理能力成熟度模型”获信通院科技治理领域年度明星解决方案及产品; 2023 年“云治理中心”获信通院科技治理领域年度明星解决方案。

今年,针对企业用云发展路径、企业云治理发展趋势分析与洞察,阿里云联合埃森哲发布《云治理企业成熟度发展 2024 年度报告》(https://developer.aliyun.com/ebook/8419),报告调研取样来自 400 多家企业客户,横跨互联网、金融、新零售、交通等多个行业,旨在帮助用户理解云治理概念、企业用云实践的现状及变迁趋势,并基于云治理框架的五大分类(即稳定性、安全合规、成本效益、有效性能、卓越运营),报告作为企业云上旅程的实践样本,为面向AI时代做好IT新治理和云上架构优化提供更多的参考与决策依据。

(完)

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 下一个万亿市场?企业级AI应用生态初现雏形

    企业级AI市场正经历从单一工具竞争向完整生态体系构建的深刻变革。Deep+X便携算力设备与AppMall.ai应用商城组成的软硬一体模式,将AI模型部署时间从48小时压缩至8分钟,解决了中小企业AI落地的核心痛点。该生态已汇聚超千个预训练模型,覆盖50多个应用领域,通过开发者激励体系形成飞轮效应。随着企业私有化部署需求增长,这种生态模式有望在未来三年催生万亿级市场,重塑产业竞争格局。

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

  • 悦灵犀AI全新版本是一次革命性的底层技术架构全栈进化

    2025年10月28日,悦享控股发布悦灵犀AI 3.0版本,实现革命性AI底层架构全栈升级。核心突破包括:自研北宸星烁3.0大模型显著提升人像建模与光影控制能力;全新AI写真系统支持75种风格、4K人像生成及30fps视频输出,打通“从静态图像到动态影像”全链路创作;创新多智能体协作体系模拟真实影楼全流程,用户通过简单指令即可获得专业级AI写真。此次升级标志着AI从工具型走向生态型,重新定义智能内容创作新时代。

  • 什么是AI生成式引擎优化GEO?GEO与传统SEO的核心区别

    ​GEO(生成式引擎优化)是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景,传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年,中国AI搜索用户规模已超6.5亿,文心一言、豆包等平台日均处理查询超过20亿次,用户已经从“翻页搜索”转向“对话获取答案”。 与传统SEO关注网页排名不同,GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明,72%�

  • 免费 AI 可见度检测器工具推荐:监控你品牌在生成式搜索中的曝光

    AI搜索时代,58.5%的Google搜索已成"零点击",ChatGPT日查询超10亿次。品牌若未出现在AI工具推荐中,将错失新流量入口。文章提出GEO(生成引擎优化)概念,强调需监控品牌在豆包、DeepSeek等AI平台的曝光排名,并推荐AIBase工具实现数据可视化。建议企业建立监测基线,聚焦高价值问题优化内容,形成"监控-优化-验证"闭环,抢占AI推荐流量先机。

  • AI生成式引擎优化选择哪个平台好?GEO优化工具推荐

    在数字化浪潮席卷的当下,品牌如何在AI平台中脱颖而出,成为众多企业关注的焦点。要理解这一点,我们首先需要认识一个新兴的营销策略——GEO。 GEO,全称为生成式引擎优化(Generative Engine Optimization),其核心目标是让品牌内容能够被AI搜尋工具理解、引用和推荐,最终被纳入AI生成的答案中。这与传统的SEO(搜索引擎优化)专注于在搜索结果列表中排名靠前有着本质的不同�

  • 生成式 AI 搜索优化(GEO)完全指南:从入门到落地

    随着生成式AI工具普及,用户更倾向直接提问而非传统搜索,导致优质内容可能被AI忽略。本文介绍生成式引擎优化(GEO)策略,帮助内容被AI理解、引用并整合进答案。核心包括:优化内容结构(如摘要、问答块、列表)、使用Schema标记、构建权威性,并推荐AIBase等工具监控引用效果。GEO是SEO的演进,需重塑写作方式以适应AI阅读逻辑。

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

  • 什么是GEO优化?AI生成式引擎优化平台推荐

    在数字化浪潮席卷的当下,搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词,而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示,超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。 什么是GEO优化? GEO,全称为生成式引擎优化,是

  • 本地业务如何获得AI推荐,生成式 GEO优化策略分享(含工具实操)

    本文探讨生成式AI时代本地业务如何抢占AI推荐入口。指出传统SEO已不足,需采用生成式GEO策略。核心要素包括:确保NAP信息精准一致、标注实时营业状态;创建结构化FAQ和场景化内容;通过多平台评价提升可信度;优化页面为"可被摘录"模式。文章提供五步操作流程,并推荐AIBase工具监测本地GEO表现,强调构建"快速回答+场景页面"模板是未来竞争关键。

今日大家都在搜的词: