基于DeepSeek的可观测性智能体实践
背景
云观秋毫是一家在可观测性领域帮助用户落地IT故障根因分析的初创企业。产品最开始使用传统的规则引擎来实现分析规则的执行,但是存在可解释性和定制化差等问题,所以2024年我们探索引入了大语言模型,不仅取得了效果上的提升,同时也获得了更好的解释性和可扩展性。2025年,云观秋毫将会把实践经验融入到平台中,研发可观测性智能体编排平台,让用户也能够快速构建可观测性领域的智能体,覆盖更多可观测性数据分析垂直场景。
早在2024年11月,通过多方位实验和测试,团队就已经选型DeepSeek作为智能体背后默认的大语言模型,当时我们已经发现DeepSeek在性能和成本上的优势,但没有料到DeepSeek会如此火爆,下图是我们在社区中介绍功能的聊天记录:
实践效果
先上结论,我们基于大语言模型实现了一个可持续演进的故障定位智能体,该智能体能够执行告警分析和故障定位的能力,该智能体在使用DeepSeek时综合表现优于其他模型(2025年2月结论)。DeepSeek在理解和处理可观测性的各类数据上有着较高的准确率,能够较好地理解专家规则并按照规则分析数据,且具有高性价比的价格,尽管偶尔出现数据幻觉,但经过设计能够达到较高的准确率。
该智能体分析问题的整体流程为:以告警通知作为智能体分析的入口,以告警和异常检测事件作为数据基础,让大模型利用预设的思维链规则分析拓扑和事件数据,以此识别疑似根因节点,最终通过北极星指标确认根因。
使用该智能体,能够显著提高用户在复杂服务依赖场景中进行故障定位的效率,同时智能体在分析问题时提供了更好的解释性和可扩展性。
下图是该智能体分析问题的真实案例:
这里不再赘述细节,如果大家对该智能体感兴趣,欢迎关注和试用“云观秋毫”的“APO”产品,我们在官网提供了更多详细信息。此外,我们正在研发可观测性智能体编排平台,未来用户能够方便地在平台上构建自己的智能体,覆盖除了根因分析以外的更多场景。