故障注入平台
为了能够更加直观的展示产品效果,在这里提供在线版本的故障案例集系统 soma-chaos 进行故障案例的展示和产品效果的演示。
介绍
故障注入平台部署了 Train-ticket 业务系统的两条完整业务流程查询余票
与查询最便宜票
,并对两个业务通过入口接口每秒产生一次访问。以这种形式来模拟真实用户访问情况。
- 正常情况下,系统正常运行,不存在任何故障。
- 可以通过在任意节点注入故障来感知故障根因推导的能力。用户可以在调用链路拓扑图中选择任意节点注入已经支持的故障,同时界面会显示故障已经注入成功。见「图1:业务调用链路拓扑」
在已经支持的故障案例种类中,可以在任意节点选择任何故障进行注入,但是故障不一定会对业务造成影响,例如对一个IO密集型业务注入「增加处理每个请求的CPU消耗」故障,对业务影响并不会特别明显。因此在故障注入成功以后,可以主要通过观察该业务延时是否有上升来判断该业务节点对被注入的故障是否敏感。
可以通过故障注入平台使用图形化的界面对 Train ticket 系统注入故障案例并实时查看故障状态,之后在产品中查看故障数据效果。
故障注入使用步骤
- 进入故障注入平台,选择一个业务入口
- 在服务拓扑图中选择任意服务节点,选择故障注入
- 故障注入之后,可以在故障注入平台看到时延的升高,此时:
- APO 向导式可观测性中心的首页中,服务端点的数据会发生变化,点击进入详情页体验向导式排障流程
- Originx 根因推理的首页会产生 SLO 违约示警, 可以点击“诊断”尝试 Originx 体验高效的故障排查流程
关于
故障案例集演示系统 soma-chaos 是一个开源模拟故障案例集系统,用户可以通过图形化的界面将故障案例针对train-ticket注入故障并实时查看故障状态,开源在龙蜥社区系统运维联盟之下,查看开源地址。
Train ticket购票系统是由复旦大学SELab开源业务模拟系统,其具体地址在Train-ticket Github。
Train ticket目的是为了验证其AIOPS算法识别微服务场景中的故障根因效果而开发,所以采用的主流spring cloud微服务技术开发。
龙蜥社区系统运维联盟由清华、复旦、浙大、信通院、阿里云、浪潮、中兴、统信,云观秋毫、云杉网络、乘云科技作为首批联盟发起,联盟的宗旨是以推动系统运维技术进步、促进产学研合作为⽬的的⾮营利性组织。
云观秋毫与复旦大学在联盟主要工作是构建故障案例集演示系统,这个故障案例集的主要目的是提供开源开放的故障案例集合,促成行业面对故障的时候能以统一的案例话术沟通,当前故障案例离真实环境还有一定距离,欢迎任何单位来贡献故障案例。故障案例集演示系统的设计 核心宗旨如下: