Incident RCA and Problem Identification

本指引用来描述一般意义的由生产事故作为入口的根因分析和问题管理方法。 背景 事故定义应着眼于服务不可用而非系统技术性故障,否则广义范围的问题管理方法则不适用。 问题管理制度应允许事故导向多个问题单,并分别定级和推进。 问题管理原则 问题管理的最终目标,是提高服务的业务可用性(Availability)。服务可用性以生产...

Problem Management Methodology 问题管理的基本逻辑

问题的定义 Problem is an issue that could cause an incident. 相比较于事故(Incident),问题描述的是一种可能产生事故的概率,是一种对于已知风险的量化表达。问题并不需要总是用来代表技术性的缺陷(如代码Bug),问题也不应该用来代表RCA的过程(Root Cause...