p0po's blog

服务可用性指标

线上服务可用性评估标准

服务可用性百分比

引用一句我的签名“概率是时间之后的第五个维度”,时间我们尚且不能控制,何况概率这种事呢?

服务可用性,是衡量一个系统稳定性的标准,大家通常用几个9做为系统稳定性的单位,比如通常说的4个9:

如果衡量时长为一天,那么允许故障时长为8.64秒,

如果衡量时长为一个月,那么允许故障时长为1.752分钟,

如果衡量时长为一年,那么允许故障时长为52.26分钟.

我们可以看出,时间越长对系统的考验越大,因为随着时间增长发生故障的概率会增大,因此长时间提供稳定服务就成了一个系统比较困难的指标。

我们可以简单列举几个常见的故障,比如系统受到ddos攻击,需要切换域名到其他ip,这个大概需要多久呢?

最快15分钟生效,整个互联网同步至少要一多个小时吧。

如果没有应对措施,一年来一次你就达不到4个9了。

再比如,系统上线要停止服务?停一次如果花2分钟,那这个月你就达不到4个9了。

由于流量激增,某个服务挂了,停几十分钟,又要与4个9无缘了。

4个9好难,5个9在国内的公司中是不敢奢求了,我们暂时把目标放低点,先踏踏实实做好3个9,从基础架构和基础设施开始。