美文网首页工作生活
故障分析和处理的过程、工具与方法

故障分析和处理的过程、工具与方法

作者: 逍遥的石头 | 来源:发表于2019-07-04 08:00 被阅读0次

(1)处理过程

1、确认故障,是否真的是故障、故障的表现是什么等。

2、分析故障影响,影响的对象、影响的范围、影响的程度等。

3、查看应用、系统日志,看日志是否有关联的报错或告警日志。

4、检查监控告警平台是否有告警信息。

5、查看服务器或集群容量和性能指标,主要看是否有容量指标超阀值,性能出现瓶颈等。

6、是否是变更导致了问题。

7、确定故障处理方案,现场如何保护、处理步骤是什么,有什么风险等。

8、处理故障

9,验证故障处理结果

(2)分析方法

1、对比分析

2、排除法

3、历史数据分析

4、趋势分析

5、时序日志分析法

(三)处理方法

1、故障隔离

2、交易降级

3、熔断

4、交易限流

5、服务、进程重启

6、服务器重启

7、变更回退

相关文章

网友评论

    本文标题:故障分析和处理的过程、工具与方法

    本文链接:https://www.haomeiwen.com/subject/skbkhctx.html