项目是一个在运营中的项目,在后续新功能开发的时候线上总是出现各种问题,让客户对项目的信任度降低很多,也对公司造成了经济损失。于是就有了一个任务,提高项目的可用性。经过一段时间的实践,总结出来了一个公式
提升系统的稳定性=减少故障的数量+提升发现速度+提升恢复速度
减少故障的数量
线上的故障主要分为依赖类故障、变更类故障、容量类故障、固件类故障
依赖类故障
在现在分布式架构盛行的背景下,一个微服务的直接和间接依赖是非常多的。下游的某个服务、缓存、DB如果挂了,自己就会被“牵连”,无法提供正常服务。