美文网首页程序员
互联网系统稳定性笔记2 - 故障管理

互联网系统稳定性笔记2 - 故障管理

作者: 熊出的笔记 | 来源:发表于2018-03-10 10:44 被阅读0次

互联网系统稳定性关注的领域是故障管理领域。故障,通常意义就是系统运行行为和预期不一致,并且造成了实际损失。思考一下,双十一页面白屏,外卖下单的时候订单始终提交不了, 这些在系统背后都对应着一些列错误,例如数据库宕机,应用服务器OOM,I/O阻塞等等。

认真的来看,故障管理领域我们可以分为下面的子领域。

【故障防范】- 防患于未然

一般而言,在系统规模比较小的时候,我们通过规范操作,标准化运营维护行为就可以避免大部分故障。例如,CI/CD的落地,数据库/缓存等规范化使用,应用服务防御性设计等, 这些都可以避免相当一部分的故障发生。 

随着系统规模增长,以APPID论,成千上万的APPID出现后,一次业务调用的链条开始设计到十几个服务之后,系统复杂度急剧上升。 这时候,就需要通过演练进行故障的防范。 Netflix的Chaos Engeering就是非常著名的演练工程。随机混乱攻击性测试,让服务持有方不得不在防御性设计,系统自愈能力上下功夫,以提高服务的可用性级别,进而增强整个系统的鲁棒性。

【故障感知】- 上天入地的监控系统

Google为整个互联网世界贡献了无数理论瑰宝,其中Dapper指导了大量分布式监控框架的实现,例如Pinpoint,Zipkin,点评老吴的CAT, 我们也有etrace。万变不离其中,这是应用层上trace系统,可以观察调用链,异常,接口QPS,调用成功率等等。 

Infra层上业界也有诸多开源框架。总的来说,基本架构为:采集器+时序数据库+Dashboard框架,例如:statsD/collected + graphite + grafana, prometheus, open-falcon等等。

接入层的监控相对比较困难,CDN的可用性,网络接入点的访问成功率,现在可以采用分布式的APM工具进行各地采样,实时反馈当地网络访问的稳定性。

【故障触达】- 即时消息和电话

故障响应的效率高低取决于故障是否可以及时触达应急响应人员。 OnCall流转,消息确认,故障处理状态更新和同步这些是常规的手段。而在实践中,故障定位和排障效率最高的方式是IM群,或者是会议室集中的方式。 原因是信息的及时同步。

故障触达时所携带的故障发生上下文极为重要。 例如,故障发生时的变更,异常指标,初因定位,甚至可以通过算法分析获取有效的根因范围。

【故障止损】- 第一时间应该选择的动作

故障发生的不可预知性决定了我们需要有一整套的故障响应预案,而且应该是验证过的预案。 预案应该至少包含:降级(接口,功能,系统能力),回滚(代码,版本),双活切换,备用机房等。

造成线上问题的原因目前来看主要有两大类: 变更(配置,版本等),容量不足(积累,突发事件等)。无论哪一种,我们在应对时,第一选择都应该是经过演练的预案。 

【故障复盘】- 有效改进

故障在结束后进行的复盘是整个故障管理完整闭环的最后一环。 对事不对人,首先关注技术缺陷,其次关注标准操作流程是否完善,最后才是追责。 

关于故障复盘,我们在乎的是改进的落地效率。因此,明确改进方案,时间,检查点等,十分有必要。

此外,故障信息是否能自动化收集,分类,也体现了完整的技术运营技术能力。

总结:

互联网系统的系统稳定性最终反应到人们面前的是故障发生率,故障级别等等。因此,提高系统稳定性就是要提高故障管理能力,三分治理,七分自动化(智能化)。 

相关文章

  • 互联网系统稳定性笔记2 - 故障管理

    互联网系统稳定性关注的领域是故障管理领域。故障,通常意义就是系统运行行为和预期不一致,并且造成了实际损失。思考一下...

  • UNIX/Linux系统管理技术手册

    1、系统管理:账号管理、增删硬件、执行备份、安装和更新软件、监视系统、故障诊断、系统安全2、sort -t: -k...

  • 指标

    系统稳定性 对所负责的系统能够制定完善的监控运维体系及执行严格的开发上线流程,无P1/P2 故障发生; 确保数据、...

  • 面向云原生的混沌工程工具-ChaosBlade

    导读:随着云原生系统的演进,如何保障系统的稳定性受到很大的挑战,混沌工程通过反脆弱思想,对系统注入故障,提前发现系...

  • 设备故障报修管理系统

    设备故障报修管理系统 登录界面: 报修界面: 报修界面提示: 故障报修系统采用的网络架构是B/S架构,通过...

  • 高可用系统

    高可用系统设计:1、软硬件冗余,消除单点故障,任何系统都有冗余系统处于standby2、故障检测与恢复,检测故障并...

  • 《运维体系管理课-赵成》故障管理

    27故障管理:对故障的理解 系统正常,只是该系统无数异常情况下的一种特例 Design for Failure 理...

  • 互联网系统稳定性笔记1 - 视角

    系统稳定性对于外卖和新零售系统相当重要,有甚于电商系统,主要原因是业务连续性,和业务闭环的时效性特征。30分钟送达...

  • 互联网系统稳定性笔记3 - 工具

    SRE,DEVOPS谁可以分的清楚?

  • 高压电缆故障测试仪的操作规程

    高压电缆故障测试仪电缆故障测试管理系统由测试系统、路径信号发生器、路径信号接收器和定位仪组成。它可以完成电缆故障测...

网友评论

    本文标题:互联网系统稳定性笔记2 - 故障管理

    本文链接:https://www.haomeiwen.com/subject/pkmvfftx.html