I stor skala er fejl uundgåelige — servere går ned, netværk svigter, afhængigheder bliver utilgængelige. Design for fejl betyder at bygge systemer, der tolererer og gendanner sig fra fejl elegant i stedet for at antage, at alt fungerer. Dette er essentielt for pålidelige systemer.
Design for fejl (mentaliteten)
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
→ servers crash, networks partition, disks fail, dependencies go down, traffic spikes
→ design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
