Jak navrhnete strategii zálohování a zotavení po havárii?

Question

Accepted Answer

Strategie zálohování a zotavení po havárii (DR) odpovídá na otázku: pokud ztratíme data nebo celý region, **kolik dat můžeme ztratit, jak rychle se vrátíme do provozu a umíme vůbec obnovit?** Opírá se o **pravidlo 3-2-1**, jasné cíle **RPO/RTO** a – kriticky důležité – **pravidelně testované obnovy**.

## Pravidlo 3-2-1

```text
3 copies of the data
2 different media / storage types
1 copy offsite (different region or provider)
→ no single failure (disk, host, datacenter, ransomware) destroys every copy
```

Zálohování by mělo být **automatizované** (bez nutnosti ručního spouštění) a **umístěné mimo lokalitu** tak, aby regionální havárie nepřevzala zálohu s primárním systémem.

## RPO a RTO

Tyto dva cíle řídí každou rozhodnutí při návrhu:

- **RPO (Recovery Point Objective)** – přijatelná ztráta dat, měřena v čase. RPO 1 hodina znamená ztrátu maximálně poslední hodiny zápisů, což určuje frekvenci zálohování/replikace.
- **RTO (Recovery Time Objective)** – jak dlouho může trvat obnova. RTO 30 minut znamená, že systém musí být obnoven a v provozu do 30 minut, což určuje architekturu DR.

```text
frequent backups / replication → smaller RPO (less data lost)
hotter standby infrastructure  → smaller RTO (faster recovery)
both cost money → pick targets per business criticality
```

## Úrovně DR (náklady vs RTO)

```text
Backup & restore  → cheapest; restore from backups on demand   (RTO: hours)
Pilot light       → minimal core running, scale up on disaster  (RTO: tens of min)
Warm standby      → scaled-down live copy, scale up to take over (RTO: minutes)
Multi-site active → full live copies serving traffic            (RTO: ~seconds)
```

## Testujte svoje obnovy

**Záloha, kterou jste nikdy neobnovili, není záloha – je to naději.** Plánujte pravidelné cvičení obnovení: skutečně znovusestavte ze zálohy do čistého prostředí a ověřte integritu. Tímto způsobem odhalíte poškozené zálohy, chybějící části a rozbitá návody *před* skutečnou havárií.

## Proč je to důležité

Ztráta dat a regionální výpadky jsou chvíle, kdy se prověřuje přežití společnosti. Pravidlo 3-2-1 zajistí, aby kopie přežila jakoukoli jedinou chybu; RPO/RTO změní vágní "máme zálohy" na měřitelné závazky; vrstvy DR vám umožňují přizpůsobit náklady kritičnosti; a testované obnovy jsou jediným důkazem, že celá věc skutečně funguje. Vynechání testu je způsob, jak týmy zjistí, uprostřed výpadku, že jejich zálohy byly k ničemu.