“ SRE的目标是建立一个可靠的系统。” 基本SRE指标概述

站点可靠性工程(SRE)是DevOps实施的一种形式。SRE方法起源于Google,并于2016年出版同名书后在杂货IT公司中广受欢迎。



在本文中,我们将描述SRE方法与DevOps的关系,SRE工程师要解决的任务以及他要处理的指标。





从DevOps到SRE



在许多IT公司中,不同的团队参与具有不同目标的开发和运营。开发团队的目标是推出新功能。运营团队的目标是保持新旧功能在生产中正常工作。开发人员努力提供尽可能多的代码,系统管理员努力保持系统的可靠性。



球队的目标相互矛盾。为了解决这些矛盾,创建了DevOps方法。它涉及减少孤岛,接受错误,依靠自动化和其他原则。



, , DevOps . « DevOps?». , , .



2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.



DevOps — . SRE — . DevOps — , SRE — , DevOps.



SRE-



SRE , DevOps .



, , SRE . , - . , SRE .



SRE — . , , — .



, SRE , , . - : « — ». , . SRE . , , . , .



. , , . , .



SRE . , SRE : «OK, , , ». , , , .



  • — , .
  • — , . , .


SRE , -, . SRE ( , ).



SRE , - .



, SRE . , -. — .



: SLA, SLI, SLO



. — , .



SRE , . , (, . .) , .



- — Service-Level Objective (SLO). , .



SRE , . « , . , , SLO», Google. — , , .



, — Service Level Indicator (SLI). , , , — .



SLO SLI — , . Service Level Agreement (SLA). .



SLA: 99,95% ; 99 ; 85% 1,5 .



100%



SRE , . , .



, «»:



  • — 99%,
  • — 99,9%,
  • — 99,99%,
  • — 99,999%.


— 5 , — 3,5 .





, 100%, . - ROI — .



, . ! 47 . . .



. 99,99% 99,999%, 99%. , 10 8 . , .



— MTBF MTTR



, SRE : MTBF MTTR.



MTBF (Mean Time Between Failures) — .



MTBF . SRE «!». , SRE - , , .



MTTR (Mean Time To Recovery)— ( ).



MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .



13 — , . 7-8 , — . MTTR , .



SRE , MTTR, SLO , , .



, . , , :



, SRE. , SRE , , , , . , , .





, 100% , , , — , - «» .



SLO. SLO (Error budget).





SRE.



43 , 40 , : SLO, . , -.



, . SRE Error budget :



  • , ,
  • ,
  • ,
  • .


, Error budget . .





«» : SRE, . , , . SRE .



— SRE . Netflix Chaos Engineering.



Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .



Chaos Engineering :



  1. , , ( ).
  2. , . — : , .
  3. , , , CI/CD- .


Post mortem



SRE blameless postmortem, , .



, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .





, , SLO. SRE — . , , .



:



  • — (« !»);
  • — (« - , , »);
  • — , («, , , »).


SRE , , , , . .



(Observability). , , , .



: , , . : , - Kubernetes, , .



Observability MTTR. Observability , , , MTTR.



SRE



SRE , , , . SRE , . , . , .



SRE , , . . — (, ). , , , .



SRE : SLO, SLI, SLA . , SLA SLO. . , , .



, , — , . Error budget, , .





SRE. , .



SRE Google:

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems



:

SRE

SLA, SLI, SLO

Chaos Engineering Chaos Community Netflix

200 SRE



SRE ():

Keys to SRE

SRE

SRE

SRE





, — . , - SRE . 11–13 2020.



SLO, SLI, SLA, , , .



SLO: , , , DoS-. , Error budget, , .






All Articles