站点可靠性工程师
站点可靠性工程 (SRE) 是一种软件工程实践,专注于提高软件系统的可靠性和性能。SRE 的核心目标之一是在可用性、性能、延迟、效率、容量和事件响应等方面提高软件系统的可靠性。SRE 团队用来验证其目标达成情况的一些 metrics 包括服务级别协议 (SLA)、服务级别目标 (SLO)、服务级别指标 (SLI) 和错误预算。
以下是 SRE 重点领域和指导您可观测性策略的最佳实践。
事件响应和危机管理
事件响应包括监控、检测和应对计划外事件或中断,其目标是最小化平均事件解决时间 (MTTR) 并满足服务级别协议 (SLA)。