인시던트 중 당신의 일은 혼자 고치는 영웅이 되는 것이 아니라 침착하게 서비스를 복구하고 대응을 조율하는 것입니다. 명확한 역할, 침착한 소통, 그리고 먼저 완화하려는 성향이 매끄러운 대응과 혼돈을 가릅니다.
인시던트를 운영하는 방법
text
1. 역할을 ASSIGN하라 — incident commander(조율), responder(수정),
comms(stakeholder 업데이트). 한 사람이 셋 다 할 수 없다.
2. 먼저 MITIGATE하라 — root cause를 쫓기 전에 출혈을 멈춰라
(roll back, feature-flag off).
3. 주기적으로 COMMUNICATE하라 — "여전히 조사 중"이라도 15-30분마다.
4. 침착함을 유지하라 — 팀은 당신의 에너지를 반영한다. 비난은 나중, 또는 절대로.
5. 이후: 비난 없는 post-mortem — 사람이 아니라 시스템을 고쳐라.
진단 전에 완화하라
root cause를 찾으려는 본능은 강합니다, 저항하십시오. rollback이 서비스를 복구한다면, 먼저 그것을 하고, 압박이 사라진 뒤 침착하게 조사하십시오. 사용자는 막힘이 풀리는 것에 신경 쓰지, 당신의 진단에는 관심 없습니다.
구체적인 예시
배포가 checkout을 망가뜨립니다. 압박 속에서 새 코드를 라이브로 디버깅하지 마십시오. 즉시 roll back하고, checkout이 작동함을 확인하고, 업데이트를 게시한 , 침착한 조건에서 나쁜 배포를 조사하십시오.
