Kako dizajnirate sustave koji gracefully podnose kvarove?

Question

Accepted Answer

U velikoj skali, **kvarovi su neizbježni** — serveri padaju, mreže se kvare, ovisnosti postaju nedostupne. Dizajniranje za kvarove znači izgradnja sustava koji **toleriraju i obnavljaju se iz kvarova gracefully** umjesto pretpostavljanja da sve funkcionira. To je esencijalno za pouzdane sustave.

## Dizajniranje za kvarove (mentalitet)

```text
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
  → servers crash, networks partition, disks fail, dependencies go down, traffic spikes
  → design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
```

## Tehnike otpornosti

```text
✓ REDUNDANCY → multiple instances, no single point of failure (failover to healthy ones)
✓ RETRIES (with backoff) → retry transient failures (with exponential backoff + jitter to
  avoid overwhelming a recovering service)
✓ TIMEOUTS → don't wait forever for a failing dependency (fail fast)
✓ CIRCUIT BREAKERS → stop calling a failing service temporarily (prevent cascading failures;
  give it time to recover) → fail fast and fall back
✓ GRACEFUL DEGRADATION → reduced functionality vs total failure (e.g. show cached/partial
  data if a service is down)
✓ FALLBACKS → a default/alternative when something fails
✓ BULKHEADS / isolation → contain failures (one part failing doesn't sink everything)
```

## Izbjegavanje kaskadnih kvarova

```text
⚠️ CASCADING failures → one failure triggers others (e.g. a slow service exhausts callers'
  resources → they fail too → spreads)
→ prevent with: timeouts, circuit breakers, isolation/bulkheads, load shedding, backpressure
✓ MONITORING/alerting → detect failures fast; test failure scenarios (chaos engineering)
```

## Zašto je to važno

Razumijevanje kako dizajnirati sustave koji gracefully podnose kvarove je vrijedno jer su **kvarovi neizbježni u velikoj skali**, a dizajniranje za njih je esencijalno za pouzdane sustave, pa je to važno znanje iz dizajna sustava.

Temeljna mentalnost — **pretpostavka da će stvari biti loše** (jer je u velikoj skali, kvarovi su normalni, ne iznimka — serveri padaju, mreže se particioniraju, ovisnosti padaju) i dizajniranje sustava koji očekuju i gracefully podnose kvarove umjesto pretpostavljanja da sve funkcionira — je temelj izgradnje pouzdanih sustava, uhvaćen u principu da "sve biva loše cijelo vrijeme." Razumijevanje **tehnika otpornosti** je ključno praktično znanje: **redundancija** (nema jedinstvene točke kvara), **retry-evi s backoff-om** (rukovanje prijelaznim kvarovima, s eksponencijalnim backoff-om i jitter-om kako bi se izbjeglo preplavljenje oporavljajućih servisa), **timeouts** (brzo propadanje umjesto čekanja zauvijek), **circuit breakers** (zaustavljanje poziva neispravnoj usluzi kako bi se spriječili kaskadni kvarovi i omogućila oporavka), **graceful degradation** (reducirana funkcionalnost umjesto potpunog kvara, poput prikazivanja cachiranog podatka), **fallback-ovi**, i **bulkheads/isolation** (sadržavanje kvarova).

Ove tehnike su način na koji sustavi toleriraju i obnavljaju se iz kvarova koji se neizbježno javljaju.

Razumijevanje kako **izbjegnuti kaskadne kvarove** — gdje jedan kvar pokreće druge (spora usluga iscrpljuje resurse pozivalaca, šireći kvar), sprječeno s timeout-ima, circuit breaker-ima, isolation-om, load shedding-om, i backpressure-om — je posebno važno, jer kaskadni kvarovi male probleme pretvaraju u glavne prekide.

Razumijevanje uloge monitoringa i testiranja scenarija kvarova (chaos engineering) dovršava sliku.

Budući da su kvarovi neizbježni u velikoj skali i dizajniranje za njih (s mentalitetom design-for-failure i tehnikama otpornosti) je esencijalno za pouzdane sustave, i budući da je razumijevanje mentaliteta, tehnika, i prevencije kaskadnih kvarova važno za izgradnju robusnih sustava, razumijevanje kako dizajnirati za kvarove je vrijedno, praktično važno znanje iz dizajna sustava — esencijalno za izgradnju pouzdanih sustava koji toleriraju neizbježne kvarove u velikoj skali, centralno za otpornost kroz redundanciju, retry-eve, circuit breaker-e, i graceful degradation, i reflektirajući mentalitet design-for-failure koji robutsne sustave razlikuje od krhkih.