장애를 우아하게 처리하는 시스템을 어떻게 설계하나요?

Question

Accepted Answer

대규모에서 **장애는 불가피**합니다 — 서버가 죽고, 네트워크가 실패하며, 의존성이 사용 불가능해집니다. 장애를 위한 설계는 모든 것이 동작한다고 가정하기보다 **장애를 우아하게 견디고 복구**하는 시스템을 구축하는 것을 의미합니다. 이는 신뢰성 있는 시스템에 필수적입니다.

## 장애를 위한 설계 (마인드셋)

```text
무언가는 실패할 것이라 가정 → 대규모에서 장애는 예외가 아니라 정상:
  → 서버가 죽고, 네트워크가 분할되며, 디스크가 실패하고, 의존성이 다운되고, 트래픽이 급증
  → 장애를 예상하고 우아하게 처리하도록 설계 (모든 것이 동작한다고 가정하지 않음)
→ "모든 것은 항상 실패한다" → 복원력을 내장.
```

## 복원력 기법

```text
✓ 중복성 → 여러 인스턴스, 단일 장애점 없음 (정상 인스턴스로 failover)
✓ 재시도 (백오프와 함께) → 일시적 장애 재시도 (지수 백오프 + jitter로
  복구 중인 서비스를 압도하지 않음)
✓ 타임아웃 → 실패하는 의존성을 영원히 기다리지 않음 (빠르게 실패)
✓ CIRCUIT BREAKER → 실패하는 서비스 호출을 일시 중단 (연쇄 장애 방지;
  복구 시간 제공) → 빠르게 실패하고 폴백
✓ GRACEFUL DEGRADATION → 완전 실패 대신 축소된 기능 (예: 서비스 다운 시
  캐시된/부분 데이터 표시)
✓ 폴백 → 무언가 실패할 때 기본/대체값
✓ BULKHEAD / 격리 → 장애 봉쇄 (한 부분 실패가 전체를 침몰시키지 않음)
```

## 연쇄 장애 회피

```text
⚠️ 연쇄 장애 → 한 장애가 다른 것을 유발 (예: 느린 서비스가 호출자의
  자원을 고갈 → 그들도 실패 → 확산)
→ 방지: 타임아웃, circuit breaker, 격리/bulkhead, load shedding, backpressure
✓ 모니터링/알림 → 장애를 빠르게 감지; 장애 시나리오 테스트 (chaos engineering)
```

## 왜 중요한가

장애를 우아하게 처리하는 시스템을 어떻게 설계하는지 이해하는 것은 가치가 있습니다. **대규모에서 장애는 불가피**하고 이를 위한 설계가 신뢰성 있는 시스템에 필수적이므로 중요한 시스템 디자인 지식이기 때문입니다.

근본 마인드셋 — **무언가는 실패할 것이라 가정**(대규모에서 장애는 예외가 아니라 정상 — 서버가 죽고, 네트워크가 분할되며, 의존성이 다운됨)하고 모든 것이 동작한다고 가정하기보다 장애를 예상하고 우아하게 처리하도록 시스템을 설계 — 은 "모든 것은 항상 실패한다"는 원칙에 담긴, 신뢰성 있는 시스템 구축의 기초입니다. **복원력 기법**을 이해하는 것이 핵심 실용 지식입니다. **중복성**(단일 장애점 없음), **백오프가 있는 재시도**(일시적 장애 처리, 복구 중인 서비스를 압도하지 않도록 지수 백오프와 jitter), **타임아웃**(영원히 기다리기보다 빠르게 실패), **circuit breaker**(실패하는 서비스 호출을 중단해 연쇄 장애를 방지하고 복구하게 함), **graceful degradation**(캐시된 데이터 표시처럼 완전 실패가 아닌 축소된 기능), **폴백**, **bulkhead/격리**(장애 봉쇄)입니다.

이러한 기법들은 시스템이 불가피하게 발생하는 장애를 견디고 복구하는 방법입니다.

**연쇄 장애 회피** 방법 — 한 장애가 다른 것을 유발(느린 서비스가 호출자의 자원을 고갈시켜 장애 확산)하는 것을 타임아웃, circuit breaker, 격리, load shedding, backpressure로 방지 — 을 이해하는 것이 특히 중요합니다. 연쇄 장애가 작은 문제를 대규모 장애로 바꾸기 때문입니다.

모니터링과 장애 시나리오 테스트(chaos engineering)의 역할을 이해하는 것이 그림을 완성합니다.

대규모에서 장애는 불가피하고 이를 위한 설계(장애 대비 마인드셋과 복원력 기법)가 신뢰성 있는 시스템에 필수적이며, 마인드셋·기법·연쇄 장애 방지를 이해하는 것이 견고한 시스템 구축에 중요하므로, 장애를 위한 설계를 어떻게 하는지 이해하는 것은 가치 있고 실용적으로 중요한 시스템 디자인 지식입니다 — 대규모에서 불가피한 장애를 견디는 신뢰성 있는 시스템 구축에 필수적이고, 중복성·재시도·circuit breaker·graceful degradation을 통한 복원력의 중심이며, 견고한 시스템을 취약한 시스템과 구별 짓는 장애 대비 설계 마인드셋을 반영합니다.