跳到主要内容

APO v1.5.0更新:新增工作流编排、数据接入和告警事件列表;新增Traces数据采样

· 阅读需 6 分钟

cover 图

Agentic workflow(工作流):你的经验,Agents的灵魂

本次更新带来了专为可观测性系统设计的Agentic工作流编排功能,通过使用工作流,能将你的专家经验转变为可复用的执行流程,赋予智能体专业决策能力,提高故障排查效率。核心亮点:

  • 经验驱动的智能体:通过直观的工作流编排平台,用户可将运维智慧转化为自动化工作流,赋予智能体专业决策能力。

1 图

  • 预定义场景工作流:APO内置告警智能分析、自动化运维巡检和复杂故障快速诊断等场景,开箱即用,提升运维效率。

2 图

  • 灵活编排与定制:基于Dify打造的平台提供数据查询和异常检测工具,用户可轻松创建和修改工作流,适应多样化系统环境。

3 图


数据接入:支持通过页面接入新的监控集群或已有数据源

新增了“接入中心”-“数据接入”页面,现在可以在该页面配置探针安装命令,并根据指引监控新的集群。

您可以根据实际环境情况选择数据接入的方式,目前支持安装新的APO探针(基于OpenTelemetry)采集链路追踪数据,也支持对接已有的OpenTelemetry+Jaeger和SkyWalking数据源。

您还可以在接入中心中查看和管理已经接入的集群信息。注意通过其他方式手动安装APO OneAgent时,无法在该页面中管理。

4 图


告警事件列表

新增的告警事件列表中展示了最近产生的告警事件。在该列表中,APO结合“告警有效性”工作流和“告警根因分析”工作流自动分析告警。

  • “有效性”意味着该告警是否对系统中的服务造成影响,如果该告警不是偶发的波动且对服务造成了影响,则会被判定为“有效”
  • 针对单个告警,您可以点击“查看根因分析”,自动执行工作流来分析告警的深层原因

5 图

这些工作流均可在“工作流”页面中进行编排和优化,您可以根据实际环境情况和排查经验对工作流做出修改。


Traces数据采样

如果您使用APO OneAgent采集Traces数据,现在您可以通过修改配置开启数据采样功能。开启数据采样后将大量减少Traces数据的保存数据量,降低存储成本。根据环境和采样设置的不同,存储成本将降低到原来的30%或更低。

与传统的头采样和尾采样均不同,APO基于分布式采样策略实现了Traces数据采样。分布式采样在边缘侧(服务所在主机)决定当前数据是否保存,有效降低了整体系统的资源开销。

详细配置方式请参考“文档”-“配置Traces数据采样”。注意如果您安装APO时,采用对接已有的OpenTelemetry和SkyWalking安装方式,则不支持采样功能。

更多变化请查看下面的更新日志。


更新日志

新增功能

  • 工作流:专为可观测性领域设计的工作流编排平台,预设了多种常用工作流帮助用户解决日常问题
  • 告警事件列表:显示近期的告警事件,并通过工作流自动分析告警的根因
  • 数据接入:现在APO支持通过可视化页面接入多种外部数据源,当前版本支持对接 OpenTelemetry 和SkyWalking 链路追踪数据
  • 链路追踪采样:APO OneAgent安装的链路追踪探针现在默认开启了数据采样,有效降低数据量

功能优化

  • 支持在对接SkyWalking探针时,获取网关类型应用的请求延时指标
  • 增强了eBPF北极星指标在 Linux 内核版本5.8以上的适配性

缺陷修复

  • 修复odiglet在传统服务器上将不同的JAVA应用的服务名全部设置为'java'的情况
  • 修复告警分析中按故障贡献度排序时,有时因为指标中缺少服务信息label导致的异常

6 图