APO与SkyWalking、Signoz等产品的不同设计
· 阅读需 10 分钟
Skywalking作为国内用户量最大的APM产品,有着众多的优点。Signoz作为OpenTelemetry的发行版也有着一定的名气。我们为什么还要设计APO项目?谨代表APO团队探讨下团队之前的经验,一家之言,欢迎各位大佬一起探讨。
APO团队背景
APO团队最先着力的产品是一款商业化的根因推理引擎产品Originx。该产品目标就是对接Skywalking和OpenTelemetry的探针数据,在SLO违约的时候,快速从原始数据之上分析得到故障根因分析报告。
实现根因分析的前提——完备的关联数据
如果业务入口的延时升高或者错误率升高,对于下游依赖众多的服务调用而言,如何判断哪个接口是最可能的“凶犯”呢?我们认为应该要先对每个微服务接口的关联所有故障可能相关的数据。具体根因分析算法和规则就不在这篇文章讨论了。
接口关联数据 | 故障场景 |
---|---|
接口自身的告警信息,应用层、资源层告警 | 告警分析 |
接口的影响业务入口黄金指标 | 影响面分析 |
接口的下游依赖告警关联 | 级联告警影响分析 |
接口的实例和节点的资源指标 | 饱和度分析 |
接口的网络指标 | 网络质量分析 |
接口的代码Exception,以及含有Exception的日志 | 错误闭环 |
接口执行的北极星指标 | 延时闭环 |
接口执行的日志 | 故障佐证 |
接口执行的trace | 故障佐证 |
接口所依赖的容器环境关键事件 | 环境影响 |
三者在产品设计思路不同
在APO团队看来,从设计思路来看Skywalking和Signoz是同类型的产品,都是以应用和Trace为核心呈现数据。但是APO团队认为可观测性平台不应该是以应用和Trace为核心呈现数据,而应该是以接口为维度呈现数据,因为以接口呈现数据,就可以关联上个章节提到的所有数据。
在应用中去关联上述的数据准确度会有大降低,比如一个应用提供两个接口,两个接口执行延时偏差较大,一旦以应用维度统计黄金指标数据(错误率、延时、吞吐量),就可能将故障隐藏其中。 从Trace出发呈现问题也是Skywalking和Signoz等产品的一个核心功能,在APO中这块通过集成Jaeger的方式来实现的。
最近有些朋友交流他们在自己实现可观测性平台的时候,也想以接口来关联数据,但是感觉计算量太大,资源消耗太大。APO能够实现该功能,主要基于回溯采样,分析的都是回溯采样中的数据,所以计算量是能承受的。