跳到主要内容

1 篇博文 含有标签「发布」

查看所有标签

APO v1.0.0 正式发布!

· 阅读需 9 分钟

Cover 图

经过近四个月的打磨,APO 终于迎来了 1.0.0 正式版的发布!自开源以来,APO 团队通过不断迭代和优化,确保了产品的稳定性和功能完整性。从最初的开源版本到今天的正式版,APO 已经经历了一系列重大更新和改进。现在,我们很高兴地向大家介绍 APO 的最新状态以及它所能提供的强大功能。

愿景

APO 致力于打造一个一键安装、开箱即用且简单易用的可观测性平台,我们希望每个用户都能够轻松部署并使用我们的工具,无需复杂的配置过程或深厚的技术背景。通过集成 eBPF 技术与 OpenTelemetry 生态,APO 实现了对分布式系统的高效监控,同时保持了较低的数据存储成本。此外,我们提供的向导式排障界面可以帮助用户快速定位问题根源,减少故障排查时间,提高运维效率。

功能

为了实现这个愿景,APO 不断迭代和优化,在最新的1.0.0版本中,提供以下亮点功能:

  • 一站式可观测:APO 集成了链路、指标、日志和事件等数据,提供数据查询、告警、分析功能,能够一站式解决可观测性和故障定位的需求

1 图

  • 自动化部署Tracing探针:通过 OneAgent 技术,可以自动在传统服务器和容器环境中安装多语言的 Tracing 探针,极大简化用户的配置工作

  • 开箱即用、高效低成本的日志采集方案:充分利用ClickHouse实现高效低成本的日志方案

2 图

  • (企业版功能)告警分析:针对告警/异常进行分析,帮助用户定位根源告警,自动关联相关数据,快速定位问题根源

3 图

  • (企业版功能)集成大语言模型AI:解释、分析告警事件等关联数据,重塑排障新交互,帮助用户充分利用数据价值

4 图

更多功能详见文章末尾“附录”部分。

未来

展望未来,APO 将继续秉承开放创新的精神,不断迭代优化产品,实现最终的愿景。计划中的改进方向包括但不限于:

  • 持续提升用户体验:增加搜索筛选菜单、日志分词搜索、日志搜索高亮、更多配置可视化……
  • 支持更全面的用户权限体系
  • 支持日志告警功能
  • 支持统计分析业务指标,从业务视角识别故障
  • 支持采集请求级别和进程级别的 OnCPU 和 OffCPU 火焰图数据,定位代码级原因
  • 北极星指标支持数据库类型应用,协助分析SQL执行耗时/性能分析
  • 深度集成大语言模型,降低产品使用门槛,使产品更易用
  • 进一步优化OneAgent资源开销

欢迎大家通过各种渠道积极对 APO 提出建议,一起打造最简单易用的可观测性平台。

总结

随着 APO v1.0.0 的发布,我们迈出了重要的一步,但这仅仅是开始。感谢所有用户的信任与陪伴,让我们携手共进,一起见证 APO 的成长与发展。


相比于 0.9.0 版本,1.0.0 的变化请查看下述更新列表。

新增功能

  • 新增用户登录认证功能
  • 上下游依赖关系中新增应用对外调用节点
  • 新增统计应用对外调用中间件的RED指标
  • 新增 Java JVM 性能指标,并展示在应用基础设施大盘中
  • 企业版功能:告警分析中新增通过大语言模型分析数据的功能

功能优化

  • 配置日志库时,支持设置日志字段的数据类型
  • 配置日志库时,支持自动解析 JSON 格式日志

缺陷修复

  • 修复全量日志中长日志滚动时文字闪烁的问题
  • 修复无法采集容器指标时会持续产生错误告警的问题
  • 修复Pod中存在Go语言容器时无法注入探针的问题
  • 修复为Python语言容器注入探针失败的问题

附录:更多功能列表

基于业务接口级别的拓扑

APO 将相同应用的不同接口调用区分开,清楚地给出应用执行某类业务时的调用关系,相同的应用节点可能会按照调用顺序出现多次。完整拓扑结构太复杂,没有实现拓扑本身应该具有的“地图导航”引导用户找到疑似故障节点的功能,因此 APO 利用延时曲线相似度来收缩相似度较低的节点,更多节点采用表格形式展示,避免拓扑过于复杂无法分析。当用户需要查看下游依赖节点时,可以点击节点名快速切换到不同节点的详情页面。

5 图

基于相似度算法排序高效识别级联的故障节点

在请求延时发生故障时,很多节点都会被级联的影响到,从传统告警中看是很多节点都有告警,在APO中,每个节点都会将其下游依赖的延时进行相似度曲线匹配,从而找到延时最相似的节点,最相似的节点是根因的可疑性更高,这里的下游依赖包括直接下游和下游依赖的依赖。

6 图

7 图

北极星因果指标主因判定算法

单纯的分析链路数据会留下很多盲区,难以快速判断延时升高时是自身导致还是依赖导致。北极星因果指标主因算法能够直接给出延时波动是由何种原因导致的,给出了故障原因的方向。例如下图给出的主因是对外网络调用延时变化导致了应用延时变化,结合网络延时指标可以判断出原因到底是网络延时变化还是下游节点延时变化。

8 图

快速找到故障链路和日志

根据延时、错误率和日志错误数量曲线可以快速定位故障可能发生时间点,从而查看时间点附近的日志或链路数据。

13 图

内置丰富的指标和展示大盘,快速查看各类监控指标

11 图

自定义告警规则,并通过钉钉、微信、邮件等方式发送通知

12 图


APO介绍:

国内开源首个 OpenTelemetry 结合 eBPF 的向导式可观测性产品

apo.kindlingx.com

https://github.com/CloudDetail/apo