Strategie zálohování a zotavení po havárii (DR) odpovídá na otázku: pokud ztratíme data nebo celý region, kolik dat můžeme ztratit, jak rychle se vrátíme do provozu a umíme vůbec obnovit? Opírá se o pravidlo 3-2-1, jasné cíle RPO/RTO a – kriticky důležité – pravidelně testované obnovy.
Pravidlo 3-2-1
3 copies of the data
2 different media / storage types
1 copy offsite (different region or provider)
→ no single failure (disk, host, datacenter, ransomware) destroys every copy
Zálohování by mělo být automatizované (bez nutnosti ručního spouštění) a umístěné mimo lokalitu tak, aby regionální havárie nepřevzala zálohu s primárním systémem.
RPO a RTO
Tyto dva cíle řídí každou rozhodnutí při návrhu:
- RPO (Recovery Point Objective) – přijatelná ztráta dat, měřena v čase. RPO 1 hodina znamená ztrátu maximálně poslední hodiny zápisů, což určuje frekvenci zálohování/replikace.
- RTO (Recovery Time Objective) – jak dlouho může trvat obnova. RTO 30 minut znamená, že systém musí být obnoven a v provozu do 30 minut, což určuje architekturu DR.
frequent backups / replication → smaller RPO (less data lost)
hotter standby infrastructure → smaller RTO (faster recovery)
both cost money → pick targets per business criticality
Úrovně DR (náklady vs RTO)
Backup & restore → cheapest; restore from backups on demand (RTO: hours)
Pilot light → minimal core running, scale up on disaster (RTO: tens of min)
Warm standby → scaled-down live copy, scale up to take over (RTO: minutes)
Multi-site active → full live copies serving traffic (RTO: ~seconds)
Testujte svoje obnovy
Záloha, kterou jste nikdy neobnovili, není záloha – je to naději. Plánujte pravidelné cvičení obnovení: skutečně znovusestavte ze zálohy do čistého prostředí a ověřte integritu. Tímto způsobem odhalíte poškozené zálohy, chybějící části a rozbitá návody před skutečnou havárií.
Proč je to důležité
Ztráta dat a regionální výpadky jsou chvíle, kdy se prověřuje přežití společnosti. Pravidlo 3-2-1 zajistí, aby kopie přežila jakoukoli jedinou chybu; RPO/RTO změní vágní "máme zálohy" na měřitelné závazky; vrstvy DR vám umožňují přizpůsobit náklady kritičnosti; a testované obnovy jsou jediným důkazem, že celá věc skutečně funguje. Vynechání testu je způsob, jak týmy zjistí, uprostřed výpadku, že jejich zálohy byly k ničemu.
