운영 장애 상황에서 본인의 역할을 설명해 주세요.

Question

Accepted Answer

면접관은 본인이 위기 속에서 **침착하고, 체계적이며, 비난 없이(blameless)** 대응하는지 보고 싶어 합니다 — 먼저 서비스를 복구하고, 둘째로 진단하며, 셋째로 재발을 방지하는 것입니다. **STAR**를 사용하세요.

## 접근 방법

```text
장애 대응 순서
1. 안정화 — 출혈을 멈춘다(롤백, 페일오버, 완화)
2. 소통 — 명확한 채널로 stakeholder에게 상황을 알린다
3. 진단 — 도중이 아니라 안정된 후에 근본 원인을 찾는다
4. 예방 — 액션 아이템이 있는 비난 없는 사후 분석(post-mortem)
```

## 예시

```text
S: 배포로 인해 약 15%의 사용자에게 결제 오류가 발생했습니다.
T: 제가 온콜이었고 빠르게 서비스를 복구해야 했습니다.
A: 먼저 배포를 롤백하고(서비스가 몇 분 만에 회복), 10분마다 업데이트를
   게시한 뒤, 새 API 필드에서 처리되지 않은 null로 원인을 추적했습니다.
   가드와 계약 테스트를 추가했습니다.
R: 다운타임은 20분 미만으로 유지되었습니다. 사후 분석에서 누락된 테스트를
   CI에 추가해 재발할 수 없게 했습니다.
```

## 좋은 답변 vs 약한 답변

```text
✓ 먼저 완화, 소통, 비난 없는 후속 조치
✗ 사용자가 다운된 상태에서 라이브로 디버깅
✗ 배포한 사람을 탓함
```

## 왜 중요한가

장애는 침착함을 시험합니다 — 문제가 생겼을 때 팀에 필요한 것은 당황이 아니라 안정된 손길입니다.

비난 없는 접근은 원인에 대해 사람들이 정직하게 만들고, 이것이 실제로 재발을 막는 유일한 방법입니다.

최악의 날을 어떻게 다루는지가 좋은 날을 어떻게 다루는지보다 본인의 연차를 더 잘 말해 줍니다.