В масштабе отказы неизбежны — серверы падают, сети выходят из строя, зависимости становятся недоступными. Проектирование с учётом отказов означает создание систем, которые допускают и восстанавливаются после отказов изящно, а не предполагают, что всё работает. Это необходимо для надёжных систем.
Проектирование с учётом отказов (менталитет)
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
→ servers crash, networks partition, disks fail, dependencies go down, traffic spikes
→ design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
