면접관은 본인이 위기 속에서 침착하고, 체계적이며, 비난 없이(blameless) 대응하는지 보고 싶어 합니다 — 먼저 서비스를 복구하고, 둘째로 진단하며, 셋째로 재발을 방지하는 것입니다. STAR를 사용하세요.
접근 방법
text
장애 대응 순서
1. 안정화 — 출혈을 멈춘다(롤백, 페일오버, 완화)
2. 소통 — 명확한 채널로 stakeholder에게 상황을 알린다
3. 진단 — 도중이 아니라 안정된 후에 근본 원인을 찾는다
4. 예방 — 액션 아이템이 있는 비난 없는 사후 분석(post-mortem)
예시
text
S: 배포로 인해 약 15%의 사용자에게 결제 오류가 발생했습니다.
T: 제가 온콜이었고 빠르게 서비스를 복구해야 했습니다.
A: 먼저 배포를 롤백하고(서비스가 몇 분 만에 회복), 10분마다 업데이트를
게시한 뒤, 새 API 필드에서 처리되지 않은 null로 원인을 추적했습니다.
가드와 계약 테스트를 추가했습니다.
R: 다운타임은 20분 미만으로 유지되었습니다. 사후 분석에서 누락된 테스트를
CI에 추가해 재발할 수 없게 했습니다.
좋은 답변 vs 약한 답변
text
✓ 먼저 완화, 소통, 비난 없는 후속 조치
✗ 사용자가 다운된 상태에서 라이브로 디버깅
✗ 배포한 사람을 탓함
