在2025年亚马逊云科技中国峰会上,观测云技术总监黄小龙带来了主题为《下一代智能可观测性平台技术实践》的重磅分享。会后,我们邀请他就平台背后的理念、技术演进路径及产品规划进行了深入交流。
Q1:您在演讲中提到“烟囱式”监控体系的问题,能具体谈谈行业目前面临的主要挑战吗?
黄小龙:在过去几年中,很多企业在构建监控体系时采取了“烟囱式”方法,也就是一个系统一个工具、一个团队一套方案。短期内看似灵活高效,长期却带来了巨大的协同成本和数据割裂问题。比如同一个告警事件可能要在多个平台之间跳转,日志、指标、链路、事件之间无法关联,定位问题效率极低。
我们认为,这种割裂式的技术体系已经无法支撑AI 时代对实时性、智能性和协同能力的更高要求。于是我们提出了“智能一体化可观测性平台”的方向,用统一的数据基础、统一的查询语言、统一的分析入口,去替代冗余工具堆叠,让工程师关注问题本身,而不是工具之间的鸿沟。
Q2:这次演讲提到了很多“平台底层”的演进,比如 GuanceDB3.0,能否展开说说背后的技术逻辑?
黄小龙:可观测性平台的核心其实是“数据系统”。为了支撑多源异构、超大规模的监控数据分析,我们打造了 GuanceDB3.0,整个数据库底层基于 S3架构,采用存储与计算分离的设计。这带来了更好的性能,也更适配公有云环境。
与此同时,我们也推出了“流式聚合引擎”,它可以在数据写入时根据用户历史查询行为自动预聚合数据,极大地加速仪表板与查询响应。你可以理解为:用户看到图表的时候,不是再从原始数据“现拉”,而是从系统提前准备好的“热数据仓”中直接读取。
Q3:AI 能力是大家非常关注的话题,观测云在这方面有哪些新进展?
黄小龙:AI 不应该只是“炫技”,而是深入产品的每个操作细节。我们构建了智能体 Obsy AI,有几大亮点:
·AI 智能助手:以自然语言交互的方式,帮助用户更轻松理解数据。
·AI 智能分析:用于仪表板中的趋势识别、异常推理。
·AI 告警分析:将告警背后的上下文(链路、日志、变更等)自动关联,给出定位建议。
我们的目标不是简单回答“发生了什么”,而是帮助用户回答“为什么发生”“影响了什么”“接下来该怎么处理”。
Q4:除了常规的监控能力,你们还提到了 SIEM 安全事件分析,这属于扩展方向吗?
黄小龙:对,但也是我们认为“可观测性平台的自然边界”。我们在平台中引入了安全事件分析能力,并构建了专用引擎 Arbiter,它具备三个特点:
·可编程(用户可自定义规则);
·可引用全量观测数据(包括指标、日志、链路等);
·与常规监控解耦,不影响主业务性能。
我们的目标是让同一个平台,不仅能看清系统稳定性,也能快速洞察潜在的安全风险,实现监控与安全的融合。未来还将提供更多的内置检测模板与外部事件接入能力。
Q5:最后,能否简单总结一下观测云在亚马逊云科技生态里的技术定位?
黄小龙:我们从Day One 就基于亚马逊云科技生态构建产品架构。包括:
·存储层完全托管在Amazon S3;
·弹性计算资源调度基于EKS;
·智能体由Amazon Bedrock 提供大模型能力;
·全球客户可通过亚马逊云科技Marketplace 快速使用观测云。
这意味着客户能在全球范围内更轻松使用我们的平台,同时享受云原生带来的高可用、低运维、强弹性等优势。未来我们也会继续与亚马逊云科技深度合作,构建智能时代的监控观测平台。
智能一体化、全栈可观测、安全分析能力,正在观测云平台上逐一落地。正如黄小龙所说,“让数据‘看见’,也让决策变得可见”,可观测性不仅是运维的工具,更是企业智能化的根基。
(推广)