V rozsáhlých systémech jsou selhání nevyhnutelná — servery padají, sítě selžou, závislosti se stanou nedostupnými. Navrhování pro selhání znamená budování systémů, které tolerují a zotavují se ze selhání elegantně spíše než předpokládají, že vše funguje. To je zásadní pro spolehlivé systémy.
Návrh pro selhání (mentalita)
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
→ servers crash, networks partition, disks fail, dependencies go down, traffic spikes
→ design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
