Bagaimana Anda merancang sistem yang menangani kegagalan dengan baik?

Question

Accepted Answer

Pada skala besar, **kegagalan tidak terhindarkan** — server mogok, jaringan gagal, dependensi menjadi tidak tersedia. Merancang untuk kegagalan berarti membangun sistem yang **mentolerir dan pulih dari kegagalan dengan baik** daripada mengasumsikan semuanya berfungsi. Hal ini penting untuk sistem yang andal.

## Merancang untuk kegagalan (mentalitas)

```text
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
  → servers crash, networks partition, disks fail, dependencies go down, traffic spikes
  → design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
```

## Teknik ketahanan

```text
✓ REDUNDANCY → multiple instances, no single point of failure (failover to healthy ones)
✓ RETRIES (with backoff) → retry transient failures (with exponential backoff + jitter to
  avoid overwhelming a recovering service)
✓ TIMEOUTS → don't wait forever for a failing dependency (fail fast)
✓ CIRCUIT BREAKERS → stop calling a failing service temporarily (prevent cascading failures;
  give it time to recover) → fail fast and fall back
✓ GRACEFUL DEGRADATION → reduced functionality vs total failure (e.g. show cached/partial
  data if a service is down)
✓ FALLBACKS → a default/alternative when something fails
✓ BULKHEADS / isolation → contain failures (one part failing doesn't sink everything)
```

## Menghindari kegagalan berjenjang

```text
⚠️ CASCADING failures → one failure triggers others (e.g. a slow service exhausts callers'
  resources → they fail too → spreads)
→ prevent with: timeouts, circuit breakers, isolation/bulkheads, load shedding, backpressure
✓ MONITORING/alerting → detect failures fast; test failure scenarios (chaos engineering)
```

## Mengapa ini penting

Memahami cara merancang sistem yang menangani kegagalan dengan baik sangat berharga karena **kegagalan tidak terhindarkan pada skala besar**, dan merancang untuk mengantisipasinya adalah penting untuk sistem yang andal, sehingga ini adalah pengetahuan perancangan sistem yang penting.

Mentalitas fundamental — **mengasumsikan hal-hal akan gagal** (karena pada skala besar, kegagalan normal, bukan pengecualian — server mogok, jaringan terpartisi, dependensi mati) dan merancang sistem untuk mengantisipasi dan menangani kegagalan dengan baik daripada mengasumsikan semuanya berfungsi — adalah fondasi membangun sistem yang andal, ditangkap dalam prinsip bahwa "semuanya gagal sepanjang waktu." Memahami **teknik ketahanan** adalah pengetahuan praktis utama: **redundansi** (tanpa titik kegagalan tunggal), **retry dengan backoff** (menangani kegagalan sementara, dengan exponential backoff dan jitter untuk menghindari membanjiri layanan yang pulih), **timeout** (gagal cepat daripada menunggu selamanya), **circuit breaker** (menghentikan panggilan ke layanan yang gagal untuk mencegah kegagalan berjenjang dan membiarkannya pulih), **graceful degradation** (fungsionalitas terbatas daripada kegagalan total, seperti menampilkan data cache), **fallback**, dan **bulkhead/isolasi** (membatasi kegagalan).

Teknik-teknik ini adalah cara sistem mentolerir dan pulih dari kegagalan yang tidak terhindarkan.

Memahami cara **menghindari kegagalan berjenjang** — di mana satu kegagalan memicu yang lain (layanan lambat menghabiskan resource pemanggil, menyebarkan kegagalan), dicegah dengan timeout, circuit breaker, isolasi, load shedding, dan backpressure — sangat penting, karena kegagalan berjenjang mengubah masalah kecil menjadi pemadaman besar.

Memahami peran monitoring dan pengujian skenario kegagalan (chaos engineering) melengkapi gambaran keseluruhan.

Karena kegagalan tidak terhindarkan pada skala besar dan merancang untuk mengantisipasinya (dengan mentalitas design-for-failure dan teknik ketahanan) adalah penting untuk sistem yang andal, dan karena memahami mentalitas, teknik, dan pencegahan kegagalan berjenjang penting untuk membangun sistem yang robust, memahami cara merancang untuk kegagalan adalah pengetahuan perancangan sistem yang berharga dan praktis-penting — penting untuk membangun sistem yang andal yang mentolerir kegagalan tidak terhindarkan pada skala besar, penting untuk ketahanan melalui redundansi, retry, circuit breaker, dan graceful degradation, dan mencerminkan mentalitas design-for-failure yang membedakan sistem yang robust dari yang rapuh.