La scară mare, defecțiunile sunt inevitabile — serverele se prăbușesc, rețelele eșuează, dependențele devin indisponibile. Proiectarea pentru defecțiuni înseamnă construirea sistemelor care tolerează și se recuperează din defecțiuni cu eleganță în loc să presupună că totul funcționează. Aceasta este esențială pentru sisteme fiabile.
Proiectare pentru defecțiuni (mentalitatea)
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
→ servers crash, networks partition, disks fail, dependencies go down, traffic spikes
→ design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
