Blog | 故障根因推理引擎 | 自动化Tracing关联分析生成可解释的故障根因报告

解密北极星指标体系如何实现根因分析

2025年4月25日 · 阅读需 8 分钟

故障根因推理引擎

解密北极星指标体系如何实现根因分析

在之前的文章中提过我们的观点，AIOps实践中常见的挑战：故障根因与可观测性数据的割裂认为依赖算法给出根因建议缺乏可解释性，本篇文章重点介绍下我们的根因定位的思路, 按照这个思路去快速实现根因定位，我们认为是能够落地1-5-10的，如果对文章的思路有任何疑问，欢迎联系我们一起探讨。

为什么高效定位故障根因定位难

排障过程本质是我们拿着程序最后的执行结果去猜测验证程序执行异常的过程

当前人为定位故障主要依赖于指标告警，但是现在绝大多数指标反映的程序执行结果，并未对程序执行过程提供更多的信息。举例说明，CPU利用率是程序执行完代码之后的CPU的被使用的反映，内存利用率是程序已经使用内存的执行结果，所以排障过程本质是我们拿着程序最后的执行结果去探索程序执行异常的过程。

在探索程序执行异常的过程中，有哪些数据能反映程序执行过程呢？能反映程序执行过程数据目前常规就是日志以及各种事件（将APM数据称之为程序执行的事件数据，比如执行的代码堆栈、慢方法等）。

由于可观测性盲区的存在导致猜测验证过程依赖专家经验

不管是日志、APM数据所反映出程序执行过程其实都存在很多盲区，关于程序执行盲区，可以参考团队在KubeCon，eBPF大会等会议上分享内容。也可以参考可观测性工具的盲区与故障排查困局这篇文章，里面有更加详细讨论。

什么数据能够对故障定位起到决定性作用

基于以上的论述，我们认为要能够实现故障定位的关键数据要满足以下特点：

覆盖程序执行的盲区，不管程序任何操作都应该有数据能够和程序执行过程对应起来
数据分类要足够抽象，便于排障的人员能理解，这点很重要因为团队之前拿着程序依赖内核的行为数据去和用户沟通之时，绝大多数开发不能理解这些数据，就别提用这些数据进行排障
每个数据分类要足够隔离，不要相互影响

北极星指标体系是故障定位中的关键数据

北极星指标体系是基于TSA方法论得到的程序执行过程完整数据，关于TSA的方法论，有兴趣的朋友可以参考大神的博客，https://www.brendangregg.com/tsamethod.html 也可以参考这篇公众号的文章，TSA方法：基于线程时间分布分析性能瓶颈http://u6v.cn/5yDFVr

从这套方法论来看，采集的数据是覆盖了程序的完整执行过程，第一个要求满足了，那第二个要求就是我们将程序与内核交互的数据进行抽象而得到的。第三个就是因为我们是根据进程在操作系统上执行On与Off数据而来，所以数据是隔离没有影响的，这里也许有内核专家会疑惑比如由于网络包产生的软中断会消耗很多的CPU，所以CPU时间和网络时间不能隔离，但是我们是基于On与Off数据而来，由于网络包产生的软中断CPU消耗会被计算到ON的CPU时间之上，并能通过内核火焰图反应出最终的问题。

一次接口执行的北极星指标

围绕着北极星排障指标的建模

在有了一次接口执行的北极星数据之后，我们可以对历史数据进行基线判断，也就可以形成以下的数据

当某一次异常执行过程和基线对比之后，我们可以很快知道故障方向，比如以下的示例，问题明显就是文件方向：

问题：多分项的异常怎么办？

同时出现CPU耗时超出历史基线和net耗时超出历史基线怎么办？该往哪个方向排查？

针对一次请求的异常，我们认为应该聚焦突变最大的异常，所以只会关心突变最大的异常方向，但是并不是忽略其他突变的异常，对于根因定位而言，不能因为一次请求的异常就完全定出根因，应该对请求进行全面的分析。其它异常突变的分项如果真的是根因，在其它请求中一定也会有所反应，而偶发的噪音在其它请求中就能被过滤掉。

基于北极星指标的初因判断

对于突变最大的异常，我们会做一个初因判断，也就是某单次请求的初因异常，这样每个异常请求都会一个初因的标签了。

对请求全面分析之后的节点级故障特征

单次请求的异常可能是偶发因素，但是对节点所有请求进行全面分析之后，并统计之后，就能够形成故障特征，准确度大幅提高。比如某节点其故障特征如下：

对该特征的解释如下：

有些请求是幸运儿，没有经过长时间的锁等待就调用成功了下游服务节点，但是由于下游服务节点异常从而产生了网络调用耗时长的初因故障
更多的请求由于对外调用连接池的限制，产生了长时间的锁等待，所以产生了锁等待的故障

所以对于该特征的节点，大概率不是故障根因节点，因为其长时间的等待都是由于下游故障而导致的。

试试智能体工作流，自动化搞定运维故障排查

2025年4月25日 · 阅读需 8 分钟

cover 图

APO 1.5.0版本全新推出的智能体工作流功能，让运维经验不再零散！只需将日常的运维操作和故障排查经验转化为标准化流程，就能一键复用，效率翻倍，从此告别重复劳动，把时间留给更有价值的创新工作。更贴心的是，APO无需改造现有监控系统，轻松对接即可使用，真正实现“开箱即用”。

下面带大家快速上手这一功能，先从官方内置的实用工作流开始体验！

「开箱即用」的工作流

我们精心打磨了两款告警处理神器：告警有效性分析和告警根因分析。它们就像24小时在线的智能助手，帮你自动处理告警，让运维工作事半功倍！

1. 告警有效性分析：告别「无效告警轰炸」

面对海量告警信息，这个工作流能快速识别哪些告警需要紧急处理，哪些可以暂缓。有了它，你既能从容应对关键问题，又能放心设置更灵敏的告警规则，在故障发生时自动收集完整上下文，为后续排查打下坚实基础。

1 图

2. 根因分析：5分钟定位问题源头

触发告警后，这个工作流会立即行动：自动关联主机、服务或Pod的上下文数据，分析指标异常，并通过「北极星指标」进行多维度根因排查。无论是服务延迟激增还是资源异常波动，它都能帮你快速锁定问题根源，让故障修复效率提升80%！

后续我们会详细解析这些工作流的设计逻辑和实战效果。所有内置流程都支持按需调整，灵活适配你的业务场景，打造专属智能运维助手！

手把手教你搭建专属工作流

第一步：进入工作流平台

登录APO后，点击左侧菜单栏的「工作流」进入编辑页面。

（若未找到入口，请确认版本≥1.5.0，并检查管理员是否在「系统管理」-「菜单」中开启了该功能）

在这里呈现了很多内置的工作流，可以根据需求直接修改这些工作流，也可以从零开始根据专家经验构建属于自己的流程。

2 图

第二步：创建工作流

这里我们从零开始创建一个工作流。点击“创建空白应用”，在弹出的页面中输入应用名称，点击“创建”进入工作流编辑页面。

3 图

4 图

第三步：拖拽节点，连接流程

5 图

编辑界面左侧为功能节点库，通过鼠标拖拽即可自由组合流程，就像搭积木一样简单！将画布上的节点连接起来，就完成了工作流的创建。

在构建工作流时需要注意以下几点：

填写每个节点的输入参数；
使用大模型节点前，需在设置中配置API权限；
通过「检查列表」实时排查流程逻辑问题；
阶段性点击「运行」测试流程是否符合预期。

APO 工作流平台基于开源项目 Dify 开发，平台本身的使用在 Dify 官网有详尽的文档，这里重点介绍APO专为可观测性场景深度优化的功能：数据查询节点、异常检测节点和数据验证图表。

数据查询节点：一键调取全维度数据

可观测性平台的基础能力是展示数据并分析问题，因此数据查询是工作流最基本的能力。APO将各类丰富的数据查询工具集成到了工作流编排平台中，方便用户快速将需要查看的数据放入工作流中。

通过搜索可以快速找到你需要的数据，同时可以输入查询参数来检查当前数据：

6 图

异常检测节点：智能识别潜在风险

使用APO内置的异常检测工具，可以在查询数据后判断数据是否存在异常，针对异常数据能够进一步执行工作流分析。目前内置的异常检测工具包括阈值判断、趋势判断、分位数检测等，未来还需进一步丰富异常检测工具。

除了使用内置的异常检测节点，你还可以将数据输入大模型，让AI辅助判断异常类型，也有不错的效果！

数据验证图表：结果可视化，一目了然

回溯工作流的执行结果有助于我们理解执行过程。 APO采用图表的方式展示可观测性数据，大大增强了结果的可解释性。APO为每一类数据都设计了对应的图表，方便检查数据内容：指标数据用折线图展示趋势，链路数据用拓扑图呈现依赖关系。每一步分析结果清晰可见，轻松回溯排查逻辑。

7 图

通过智能体工作流，APO让运维从「救火式响应」进阶为「自动化治理」。现在就动手搭建你的第一个工作流，体验高效运维的乐趣吧！下一篇文章，我们将手把手展示如何构建「告警诊断」工作流，敬请期待！

8 图

踩坑实践

2025年4月25日 · 阅读需 2 分钟

Kindling-OriginX

故障根因推理引擎

故障案例总结与整理，例该案例集主要从互联网上收集整理，分享经验避免重复踩坑。同时会逐步增加对应使用 Kindling-OriginX 解决相关案例问题的实践方法和思路供参考和讨论。欢迎大家分享给身边的朋友，同时也期待更多的同学加入分享自己的踩坑经验。我们会逐步模拟类似的场景如何使用，并介绍Kindling-Originx高效排查故障

运维痛点深度解析：当前排障流程的挑战与局限

2025年4月25日 · 阅读需 13 分钟

Kindling-OriginX

故障根因推理引擎

运维痛点深度解析：当前排障流程的挑战与局限

在当今互联网时代，运维工作的重要性日益凸显。然而，随着业务规模的不断扩大，运维面临的挑战和痛点也越来越多。本文将深度解析当前排障流程的挑战与局限，提出相应的解决思路，并对未来运维及可观测的发展趋势进行展望，以帮助企业和运维团队更好地应对复杂多变的运维环境，确保业务稳定、高效地运行。

运维痛点深度解析：当前排障流程的挑战与局限

当前排障流程的最大挑战：排障难以标准化

目前在线上故障处置过程中，主要做法主要是跳坑、填坑、踩坑的方式，依赖处置参与人员对系统、业务、架构的熟悉程度，同时受人员综合能力及经验影响大，另一方面运维人员对各类可观测性指标与工具的熟悉程度，都会对故障的处置和恢复时间，甚至能否成功处置都会起到关键作用。即使相同的故障现象，不同人员也会有不同的理解和处理方式，导致处理结果不一，甚至导致故障升级。这些都导致排障流程难以标准化。

以下问题也是目前排障流程的挑战：

故障发现延迟

当前排障流程中，故障发现往往依赖于监控系统或人工巡检。然而，这些方式在实时性和准确性上存在局限，导致故障发现延迟。故障发现延迟不仅影响业务正常运行，还会增加故障处理的时间和难度。

排障效率低下

排障过程中，运维人员需要分析大量的日志、数据和相关文档。然而，由于缺乏有效的排障工具和方法，导致排障效率低下。此外，排障过程中的信息孤岛现象也使得运维人员难以快速定位故障原因。

排障流程不统一

不同团队、不同业务的排障流程可能存在差异，导致运维人员在处理故障时难以形成统一的操作规范。这不仅影响排障效率，还可能导致故障处理不当，引发更大的问题。

故障复现困难

故障复现是定位故障原因的关键环节。然而，在实际操作中，故障复现往往面临诸多困难，如环境不一致、数据丢失等。这给排障工作带来了极大的挑战。

目前的一些解决思路

提高故障发现能力

建立完备的可观测性产品体系，提高故障发现的实时性和准确性。同时，加强运维团队对监控系统的培训和团队能力，提高人工巡检的效率。

优化排障工具和方法

研发或引入专业的排障工具，如日志分析、性能监控等，帮助运维人员快速定位故障原因。此外，建立排障知识库，总结常见故障及解决方案，提高排障效率。

统一排障流程

制定统一的排障流程规范，明确各个阶段的操作步骤和责任人。通过培训和考核，确保运维人员熟悉并遵循排障流程，提高故障处理质量。

提高故障复现能力

建立故障复现环境，确保复现过程中环境的一致性。同时，加强对故障数据的收集和存储，为故障复现提供充分的数据支持。

常用的排障工具和方法

运维痛点深度解析：当前排障流程的挑战与局限

我们可以看到在实际的运维工作中，排障流程的挑战是多方面的，需要综合运用技术、流程和团队协作等多种手段来解决。在运维领域，有许多工具和方法可以帮助提高排障的效率和效果。以下是一些常用的排障工具和方法。

排障工具

Prometheus：一款开源的系统监控和警报系统，提供了通用的数据模型和快捷数据采集、存储和查询接口。
Grafana：与Prometheus结合使用，提供强大的可视化功能。主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具。
Skywalking：开源应用性能监控工具，支持对分布式系统的监控、跟踪和诊断。
OpenTelemetry：由OpenTracing和OpenCensus项目合并而成，是一组规范、工具、API和SDK的集合。使用它来检测、生成、收集和导出Metrics、Log和Trace，以帮助运维开发人员分析软件的性能和行为。
Nagios：一款流行的开源IT基础设施监控系统监控系统，用于监控网络和服务。
Kindling-OriginX：故障根因推理引擎，基于 eBPF 的自动化 Tracing 分析产品，以专家经验串联起来所有的可观测性数据，并推理成可解释、可行动的故障结论。
DeepFlow：基于 eBPF 的可观测性产品，旨在为复杂的云基础设施及云原生应用提供深度可观测性。
Splunk：一个强大的日志分析平台，能够处理大规模的日志数据。

故障排查方法论

根本原因分析（Root Cause Analysis, RCA）：目的是找到问题的根本原因，而不仅仅是表面的症状或止血方案。如果能够找到故障的根本所在，通过数据还原并佐证故障的过程，那么就可以采取相应的行动，对故障进行止血或者根除。但实际上往往不可能快速找到故障根因，所以该方法往往是最终目标，但很难有路径直达，在实际生产环境排障中往往难以直接应用，也是目前AIOps方向想要解决的核心痛点。
故障树分析（Fault Tree Analysis, FTA）：是由上往下的演绎式失效分析法，利用布尔逻辑组合低阶事件，分析系统中不希望出现的状态，通过构建一个故障树来分析特定事件的发生原因。从一个不希望发生的事件（故障）开始，追溯回可能的原因。例如构建事件墙，依据是否发生变更、是否做过配置更新等逐个事件回溯判断。
排除法（Deductive Reasoning）：通常用于逻辑性强、数据量少的情况。根据可观测数据排除干扰可能，主要适用于疑难杂症，对于常见故障，由于各类指标和相关数据既多又分散，且不一定都具有逻辑关联性，所以难以用于快速解决问题。
假设验证（Hypothesis Testing）：提出可能的假设，然后实施来测试这些假设，常见的随机变动讹方法就是其中一种，通过猜测方向和实验后验证结果来排除或确认假设。在实际场景中的例子就是处置人员往往根据经验判断问题点，之后优先选择进行重启、回滚、扩容等方式尝试解决故障，操作后如果各类指标正常，则完成止血确认假设。优点是简单速度快，缺点是主要依靠经验和假设猜测

排障流程优化策略

运维痛点深度解析：当前排障流程的挑战与局限

目前主要可以依靠提高团队质量和引入各类新工具来对流程进行优化，主要的方法有：

标准化和文档化：

制定标准的排障流程，确保每个步骤都有明确的指导和期望结果，以规定流程进行排障。

文档化所有的排障步骤和解决方案，建立企业和团队内部运维知识库，以便于知识共享和快速参考。

自动化和工具化：

引入更先进的工具和理念，通过引入先进平台和工具能力提高团队整体水平，优化排障能力和流程。

智能化和数据分析：

根据自身系统和业务特点，建立完备的数据分析和指标治理体系，提高可观测数据的使用水平。

培训和提高团队能力：

对运维团队进行定期培训，提高他们的技术能力和对最新工具的了解。

鼓励团队成员参加行业会议和研讨会，以获取最佳实践和新技术。

故障演练和复盘：

以混沌工程故障注入的方式定期进行故障演练，模拟真实环境中的故障情况，以提高团队的应急响应能力，每次故障后进行复盘会议，分析故障原因，总结经验教训，并更新排障流程。

结语

运维痛点深度解析，让我们看到了当前排障流程面临的挑战与局限。只有通过不断优化排障工具和方法、引入先进的工具和理念，帮助提高团队整体水平优化流程，才能由跳坑、填坑、避坑的处理流程演变为可管理、规范化、无差异化的标准工作流程。

这样的可观测数据平面让AI自动诊断故障

2025年4月25日 · 阅读需 15 分钟

cover 图

当今云原生和微服务盛行的时代，分布式系统的复杂性与日俱增。保障系统稳定性、快速进行故障诊断成为了运维和开发团队面临的核心挑战。传统的可观测性工具在数据收集和展示方面取得了长足进步，但在应对海量数据、告警风暴以及深度根因分析方面仍显不足。AI，特别是大模型（LLM）的崛起，为自动化故障诊断带来了新的曙光。然而，要充分释放 AI 在可观测性领域的潜力，我们需要一个全新的、为 AI 量身打造的数据平面。

APO (AutoPilot Observability) 正是为此而生。作为一款开源的可观测性平台，APO 并非简单地将 AI 应用于现有数据，而是从根本上重新设计了数据平面，使其更适合 AI Agent 进行分析和推理，从而实现更高效、更精准的自动化故障诊断。本文将深入探讨大模型在可观测性领域的价值，分析为何需要为 AI 定制数据平面，并详细介绍 APO 如何构建一个真正适合 AI 的可观测性数据基础。

LLM：解锁高效数据分析的钥匙

可观测性的三大支柱——Metrics, Tracing, Logging——为我们理解系统状态提供了丰富的数据源。Grafana、Datadog、Jaeger 等工具在可视化和手动分析方面做得非常出色。但面对日益庞大的系统和数据量，传统方法遇到了瓶颈：

告警风暴与信息过载：系统抖动或关联故障可能触发大量告警，淹没关键信号，导致运维人员疲于奔命，产生“告警疲劳”。
专家经验依赖：精准、快速的故障诊断往往依赖少数经验丰富的专家，这种能力难以复制和规模化，成为效率瓶颈。
高昂的 On-Call 成本：运维人员需要 7x24 小时待命，处理重复性高、压力大的排障工作，时间和心理成本巨大。

大模型驱动的 AI Agent 和 Agentic Workflow 为解决这些痛点提供了革命性的途径。通过将领域知识（如系统架构、常见故障模式）和排障经验（如何关联分析 Metrics, Tracing, Logging）注入 AI Agent，我们可以：

自动化初步分析：AI 可以快速扫描海量数据，识别异常模式。
执行根因推断：结合上下文信息和知识库，AI 可以提出可能的故障原因。
辅助甚至替代重复工作：AI 可以处理大量标准化的排障流程，将工程师从繁琐的任务中解放出来。这不仅能大幅提升故障诊断的效率和准确性，还能显著降低运维压力，提升整体系统稳定性。

为什么需要专为LLM优化的数据平面？

仅仅将现有的可观测性数据（如 Prometheus 的指标、Jaeger 的链路、Loki 的日志）直接喂给大模型，效果往往不尽人意。原因在于，传统的数据平台主要面向人类工程师，侧重于可视化和手动探索，而 AI Agent 对数据的需求有着本质的不同：

AI 需要“可理解”的数据结构：
AI 并非全知全能，难以直接理解各种异构、原始的数据格式。例如，直接输入原始的 Trace Span 数据，AI 可能难以准确构建服务依赖关系。数据需要经过预处理和结构化，转换成 AI 更容易理解的格式（如图、结构化指标）。
数据间需要显式的关联性：
故障诊断往往需要结合多种数据源。例如，通过指标发现延迟升高，通过链路定位到问题服务，再通过日志查找具体错误。如果这些数据（Metrics, Tracing, Logs）之间缺乏统一的、可关联的标签（如 TraceID、Pod Name、时间戳），AI 就需要执行复杂的跨系统查询和关联操作，效率低下且容易出错。
实时性与效率要求数据预聚合与模式提取：
AI Agent 需要快速响应（例如，用户问“服务 X 为什么慢了？”时，期望秒级回答）。这要求数据平面能够提供预先计算好的统计信息和模式，而不是让 AI 每次都从海量原始数据中临时计算。直接分析原始数据不仅消耗大量 Token（成本高昂），速度也无法满足交互式分析的需求。
AI 对噪声敏感，需要过滤和统计：
单次的网络抖动或偶发的应用错误可能产生“噪声”数据。AI 分析需要基于统计趋势而非孤立事件，以避免误判。例如，需要将零散的错误日志聚合成错误率指标，将单次请求的毛刺延迟平滑为 P99 延迟趋势。

传统数据平面的局限与 APO 的创新设计

了解了 AI 对数据的特殊需求后，我们再来看传统可观测性数据平面（如 Jaeger Trace, Loki Log, Prometheus Metrics）存在的具体局限，以及 APO 是如何通过创新设计来克服这些挑战的：

面向存储/UI 的数据结构对 LLM 不友好

问题：传统工具的数据结构设计优先考虑存储效率（如压缩）或 UI 展示（如可视化）。
对 AI 的挑战：这些非 AI 优化的数据结构可能导致 AI 理解困难、识别错误，甚至产生“幻觉”。
APO 的设计：APO 针对性地设计了适合 AI 理解的拓扑和指标数据结构，并通过 Few-shot Prompt Engineering 进行了优化，显著提高了 AI（如 DeepSeek-V2）识别服务拓扑、指标异常的准确率（实验准确率超过 98%）。

数据孤岛与关联性缺失

问题：Trace, Log, Metrics 数据通常存储在独立的系统中，缺乏统一的上下文标识进行默认关联。工程师需要手动将 Jaeger 中的延迟、Prometheus 中的 CPU 飙升、Loki 中的错误日志拼接起来分析。
对 AI 的挑战：AI 需要执行多次跨系统查询和复杂的关联逻辑，耗时可达秒级甚至分钟级，无法满足实时故障诊断的需求。
APO 的设计：APO 利用 eBPF 技术，在数据采集层面就将 Trace、Log、Metrics 与丰富的上下文信息（如 Pod、Node、进程、线程、TraceID）进行自动关联。输出的 API 级别拓扑数据本身就包含了关联信息，AI 无需再进行耗时的二次关联。

缺乏预处理与模式提取

问题：传统平台存储的是原始数据记录（如每个 Span、每条 Log），缺乏统计意义上的模式信息。工程师需要人眼观察火焰图或日志大海捞针。
对 AI 的挑战：让 AI 直接处理海量原始数据，计算量巨大，响应缓慢，且成本高昂。
APO 的设计：APO 在数据处理管道中对 Trace 和 Log 进行预聚合和模式提取。例如，将大量 Trace 预计算为 API 级别的服务调用图和关键性能指标（延迟、错误率、吞吐量），甚至可以预先计算出下游节点对整体延迟的贡献度（如“数据库调用耗时占比 71%”）。AI 可以直接利用这些统计结果快速定位问题方向，而非在原始数据中低效探索。

服务拓扑粒度粗糙，缺乏业务视角

问题：基于 Tracing 生成的服务拓扑通常只到服务级别（Service-Level）。当某个服务（如 service-a）出现性能问题时，难以直接判断影响了哪些具体业务功能（如“下单接口”还是“查询接口”），需要进一步下钻分析。
对 AI 的挑战：AI 的分析停留在服务层面，无法直接关联到业务影响，需要多轮交互或复杂的下钻查询才能触达问题本质，可能导致分析不准确或效率低下。
APO 的设计：APO 将服务调用拓扑细化到 API 级别（如 /api/order, /api/product/{id}），更贴近实际业务场景。同时，APO 引入了“业务入口”的概念，将相关的 API 调用链路按业务功能进行分组。这使得 AI 的分析结果更精确，输出的故障诊断报告也更容易被业务和开发人员理解。

关键数据仅有关联性，缺乏因果性

问题：传统可观测性数据（如 Metrics 和 Trace）通常只能展示现象之间的相关性（例如，API 延迟升高与 CPU 使用率升高同时发生），但难以直接证明因果关系。Trace 数据虽然能展示请求路径，但仍可能存在监控盲区（如内核态耗时、锁等待），无法精确分解请求耗时的具体构成。
对 AI 的挑战：AI 在缺乏因果性指标的情况下，难以建立标准化的、可靠的故障诊断路径，更多依赖于模式匹配和相关性猜测，导致诊断结论可能不准确或不稳定。
APO 的设计：APO 再次利用 eBPF 技术深入内核和应用运行时，实现了请求级别的耗时分解（北极星指标）。能够将一个 API 请求的总耗时，精确地分解为 CPU 执行耗时、CPU 等待调度（runqueue）耗时、网络调用耗时、磁盘 I/O 耗时、锁等待耗时等具有明确因果关系的组成部分。这为 AI 提供了一条清晰、标准化的分析路径，能够准确定位性能瓶颈的直接原因，极大提升了故障诊断的准确性和深度。

总结：APO - 为 AI 打造的智能可观测基石

为了让 AI 在可观测性领域发挥最大价值，APO 通过以下关键设计构建了一个面向 AI 的数据平面：

LLM 友好的数据结构：精心设计拓扑和指标结构，提升 AI 理解准确性。
eBPF 驱动的数据关联：自动关联 Trace, Log, Metrics 及系统上下文。
预处理与模式提取：将原始数据转化为包含统计意义的指标和模式。
API 级业务拓扑：细化服务调用图至 API 级别，并按业务入口分组。
因果性北极星指标：基于 eBPF 实现请求耗时精确分解，直击性能瓶颈。

通过这些专门为 AI 设计的优化，APO 构建的数据平面能够让 AI Agent 更高效、更准确地进行故障诊断和根因定位，显著提升系统稳定性，真正成为工程师的得力助手，将他们从繁琐、重复的排障工作中解放出来。

如果你对利用 AI 提升可观测性和故障诊断效率感兴趣，如果你也希望借助大模型的力量来保障系统稳定性，那么 APO 值得你深入了解和尝试。想了解更多或亲自体验 APO 的魔力吗？欢迎访问我们的项目地址，查阅文档、下载试用，并加入我们的社区，让我们一起探索 AI 可观测性的未来！

5 图

重新认识APO——DeepSeek带来可观性领域革命

2025年4月25日 · 阅读需 14 分钟

cover 图

Docker通过封装程序执行类库引爆了云原生技术革命，我们相信在人工智能时代，数据结合经验知识封装而成的Agentic workflow将引爆可观测性革命。

AI驱动的可观测性革命

APO致力于将AI自治Agents打造为可观测性领域的智能核心，彻底颠覆故障排查、性能调优和根因分析的传统方式。在自治Agents的加持下，可观测性系统不再是被动工具，而是主动解决问题的智能伙伴。当告警触发时，智能体立即接管，自动分析根因并提供解决方案。想象一下，当某个微服务的数据库查询效率低下，自治智能体不仅会立刻通知您，还会奉上详细的故障报告和精准修复建议。您甚至可以用自然语言与它对话，只需问一句："为什么我的应用变慢了？" AI Agents 就会清晰地回答："服务 A 的数据库查询触发了全表扫描，导致延迟激增，建议优化索引。"

1 图未来完全自治的智能体

AI自治智能体是APO的终极愿景，而在这条革命之路上，Agentic workflow是关键一环，也是APO新发布的核心功能，它让可观测性实现了第一步质的飞跃。

Agentic workflow（工作流）：你的经验，Agents的灵魂

通用LLM虽然强大，但它们缺乏IT领域的垂直专业知识。IT系统错综复杂且千差万别，不同系统间差异巨大，仅靠通用知识难以应对实际运维挑战。

APO的突破性创新在于将"专有经验知识"——也就是你的运维智慧——注入智能体的核心。普通智能体只会按照自己预设的逻辑行事，完全忽视你多年积累的宝贵经验。而APO彻底改变了这一点，让你通过构建Agentic workflow，将专业知识直接输入系统，成为智能体决策的核心驱动力。

想象您团队中有位经验丰富的老运维李工，每次系统出现问题，他总能快速找到根因—因为他积累了丰富的经验。但当李工休假时，其他人却要花上数倍时间处理同样的问题。APO Agentic workflow就像把李工的经验数字化，让每个人都能像他一样高效解决问题。

APO已经预定义了多种场景的工作流，让您立即体验智能运维的威力：

告警智能分析：当数据库CPU突然飙升时，传统告警只会发出"CPU使用率超过90%"的简单通知。而APO会立即启动分析工作流，自动收集关联的SQL查询、连接数、I/O等信息，识别出"这是因为新上线的用户注册接口缺少索引导致的全表扫描"，甚至直接给出优化SQL的建议
自动化运维巡检：周一早上，您不再需要一个个检查周末系统运行状况。APO会自动执行巡检工作流，检查所有服务的健康状态、资源使用趋势、异常日志，生成一份简明扼要的周末系统报告："发现用户服务在周日凌晨出现三次短暂CPU峰值，但未影响用户体验；预测存储空间将在14天内达到警戒值，建议本周四前扩容。"
复杂故障快速诊断：面对"用户偶发性登录失败"这类复杂问题，传统方法需要团队协作、逐个排查可能原因。而APO工作流会系统性地收集证据：先检查用户服务本身，发现无异常；接着检查依赖服务，发现认证服务有偶发超时；继续追踪发现是特定网络路径在高峰期丢包率增高。整个诊断过程从原本的数小时缩短至数分钟

2 图开箱即用的面向问题解决的Agentic workflow

每个系统环境都有其独特性，预设工作流无法覆盖所有场景。因此，APO专为可观测性领域打造了工作流编排平台。该平台基于最流行和最易用的通用AI工具Dify打造，APO基于可观测性领域存在大量多模型数据的特点，为用户提供了一系列可直接拖拽使用的数据查询和异常检测工具，任何人都能够轻松地在这个平台上将自己的经验固化为工作流，为后续实现自治Agents奠定基础。

3 图基于Dify专为可观测性领域打造的平台

例如，您有一套自己总结的"数据库性能问题排查十步法"，只需通过直观的可视化界面将这些步骤拖拽组合，添加判断条件“如果慢查询超过10条，则收集索引使用情况"，再让大模型根据实际情况决策下一步执行流程，这样就能将您的专业知识转化为自动化工作流。

APO预设的工作流同样基于该平台构建，每个工作流都能够根据实际的场景进行修改，让工作流真正融入到工作的流程中。

有了工作流，李工的年底休假计划再也不会引起团队恐慌，因为他的经验已经被编排成工作流，成为了APO智能体的一部分，24x7为团队服务。随着工作流的不断积累和优化，您实际上是在培养一个越来越了解您系统的AI助手，它会成为您团队中最可靠的"成员"。

数据基石：为智能体提供坚实支撑

Agentic workflow的核心能力依赖于对数据的有效利用。当前，可观测性数据主要包括指标、日志和链路追踪三大支柱，持续剖析火焰图等新兴数据也逐渐成为主流。然而，这些数据结构多样、体量庞大，直接输入通用LLM既低效又受限于上下文窗口，难以发挥最佳效果。因此，APO设计了专为LLM优化的数据平面，从以下两个维度构建：

横向视角：就像一张智能地图，直观展示整个系统的服务关系和健康状态。例如，当订单服务出现延迟，您能立即看到是哪个依赖服务出现问题——支付服务响应时间异常，上面标红提示
纵向关联：系统自动将不同层面的数据关联起来。当您点击异常的支付服务，能一目了然地看到它运行在哪个容器、哪个节点、使用了哪些资源、有哪些日志异常、哪些API调用超时——所有信息一键可得，不再需要在多个系统间来回切换

数据基石的横向设计让AI Agents能够迅速获取系统全貌，立即锁定异常组件；纵向设计则使其能够沿着问题线索深入挖掘，追溯到根本原因。例如，当检测到服务延迟时，AI Agents可通过横向视图确定问题服务，再利用纵向数据追踪具体原因，从容器到主机，从应用到中间件，层层剖析，直达问题核心。

APO提供内置采集工具，能够通过一键安装部署构建以上数据平面。对于已经使用了其他采集工具的用户，APO同样支持无缝对接现有数据源，用户无需改造系统即可使用这一革命性数据平面。这一创新设计为智能体提供了高效、结构化的数据基础，让AI能够真正理解系统行为并做出精准决策。

4 图

生态建设：让智能体持续进化

在融合大语言模型、数据基石和专有知识后，APO迈出了实现其愿景的关键一步。APO深知，系统的可观测性越丰富，智能体的能力就越强。然而，现有数据往往无法覆盖所有盲区，预设的工作流也难以应对复杂的运维场景。为此，APO打造了一个开放协作的生态系统，聚焦于数据生态和工作流生态两大核心，助力AI Agents适应多样化环境并持续进化。

数据生态：多元数据协同

作为一个开源项目，APO构建了一个开放平台。故障排查需要有很多维度的数据、这个平台支持厂商或者专家无缝提供各类新数据，丰富智能体的可观测资源。这些数据会被整合成自然语言描述的查询工具，为智能体提供故障排查和性能优化的有力支持。

对于专有数据，厂商或者专家还可将其领域知识嵌入特定工作流中。用户使用这些工作流时，能直接体验数据的价值，无需额外学习或积累经验。例如厂商云观秋毫提供了基于eBPF实现的北极星指标和故障排查工作流，龙蜥社区系统运维SIG提供SysOM的CPU& GPU持续剖析大规模数据、AI火焰图分析。

5 图

Agentic workflow工作流生态：群智共享

APO的Agentic workflow工作流生态可以方便汇聚群体智慧：

工作流的本质：专家的独有智慧与经验，通过workflow和LLM节点变成可以重复执行的智能体
经验共享：专家可以分享其智慧与经验，以供其他人使用，比通过博客文章分享更有利于其他用户使用
群体智慧逼近AI自治智能体：随着不同场景的工作流越来越多，当各种故障场景都能有工作流覆盖，完全自治的智能体就不远了

分享与协作，每个用户都能享受到最先进的可观测性智能体。

携手共创智能运维未来

APO以AI之力、社区之能，致力于彻底革新可观测性领域。我们坚信，开放协作将加速智能体的实现，让运维工作彻底摆脱繁琐和低效，进入全新的智能时代。无论您是数据提供者、运维专家还是技术爱好者，APO诚邀您加入这场变革，共同塑造可观测性智能体的未来！

现在，就从体验APO的Agentic workflow开始，迈出智能运维的第一步吧！

6 图

对话大模型：Kindling-Originx的能力是什么

2024年7月11日 · 阅读需 2 分钟

当前 ChatGPT 的强大是有目共睹的，其具备强大的理解和生成能力，特别是在信息概括、推理分析方面有着尤为突出的处理能力。我们也与它进行了一次有趣的对话，通过将 Kindling-OriginX 网址输入到 ChatGPT 中，让 ChatGPT 来帮大家看看 Kindling-OriginX 是什么，ChatGPT 又是如何看待 Kindling-OriginX，同时在它看来 Kindling-OriginX 的能力又是什么？下面一起来看看这次对话。

如果您也有关于 Kindling-OriginX 的问题想通过 ChatGPT 的方式问问看，可以通过添加小助手 @云观秋毫或在微信交流群中联系我们，让我们一起看看 ChatGPT 会给出怎样的回答。

ChatGPT对话��截图

解密北极星指标体系如何实现根因分析​

为什么高效定位故障根因定位难​

排障过程本质是我们拿着程序最后的执行结果去猜测验证程序执行异常的过程​

由于可观测性盲区的存在导致猜测验证过程依赖专家经验​

什么数据能够对故障定位起到决定性作用​

北极星指标体系是故障定位中的关键数据​

围绕着北极星排障指标的建模​

问题：多分项的异常怎么办？​

基于北极星指标的初因判断​

对请求全面分析之后的节点级故障特征​

「开箱即用」的工作流​

1. 告警有效性分析：告别「无效告警轰炸」​

2. 根因分析：5分钟定位问题源头​

手把手教你搭建专属工作流​

第一步：进入工作流平台​

第二步：创建工作流​

第三步：拖拽节点，连接流程​

数据查询节点：一键调取全维度数据​

异常检测节点：智能识别潜在风险​

数据验证图表：结果可视化，一目了然​

当前排障流程的最大挑战：排障难以标准化​

故障发现延迟​

排障效率低下​

排障流程不统一​

故障复现困难​

目前的一些解决思路​

常用的排障工具和方法​

排障工具​

故障排查方法论​

排障流程优化策略​

结语​

LLM：解锁高效数据分析的钥匙​

为什么需要专为LLM优化的数据平面？​

传统数据平面的局限与 APO 的创新设计​

面向存储/UI 的数据结构对 LLM 不友好​

数据孤岛与关联性缺失​

缺乏预处理与模式提取​

服务拓扑粒度粗糙，缺乏业务视角​

关键数据仅有关联性，缺乏因果性​

总结：APO - 为 AI 打造的智能可观测基石​

AI驱动的可观测性革命​

Agentic workflow（工作流）：你的经验，Agents的灵魂​

数据基石：为智能体提供坚实支撑​

生态建设：让智能体持续进化​

数据生态：多元数据协同​

Agentic workflow工作流生态：群智共享​

携手共创智能运维未来​

解密北极星指标体系如何实现根因分析

为什么高效定位故障根因定位难

排障过程本质是我们拿着程序最后的执行结果去猜测验证程序执行异常的过程

由于可观测性盲区的存在导致猜测验证过程依赖专家经验

什么数据能够对故障定位起到决定性作用

北极星指标体系是故障定位中的关键数据

围绕着北极星排障指标的建模

问题：多分项的异常怎么办？

基于北极星指标的初因判断

对请求全面分析之后的节点级故障特征

「开箱即用」的工作流

1. 告警有效性分析：告别「无效告警轰炸」

2. 根因分析：5分钟定位问题源头

手把手教你搭建专属工作流

第一步：进入工作流平台

第二步：创建工作流

第三步：拖拽节点，连接流程

数据查询节点：一键调取全维度数据

异常检测节点：智能识别潜在风险

数据验证图表：结果可视化，一目了然

当前排障流程的最大挑战：排障难以标准化

故障发现延迟

排障效率低下

排障流程不统一

故障复现困难

目前的一些解决思路

常用的排障工具和方法

排障工具

故障排查方法论

排障流程优化策略

结语

LLM：解锁高效数据分析的钥匙

为什么需要专为LLM优化的数据平面？

传统数据平面的局限与 APO 的创新设计

面向存储/UI 的数据结构对 LLM 不友好

数据孤岛与关联性缺失

缺乏预处理与模式提取

服务拓扑粒度粗糙，缺乏业务视角

关键数据仅有关联性，缺乏因果性

总结：APO - 为 AI 打造的智能可观测基石

AI驱动的可观测性革命

Agentic workflow（工作流）：你的经验，Agents的灵魂

数据基石：为智能体提供坚实支撑

生态建设：让智能体持续进化

数据生态：多元数据协同

Agentic workflow工作流生态：群智共享

携手共创智能运维未来