Во время инцидента ваша работа — спокойно восстановить сервис и скоординировать ответ, а не быть героем, который это чинит в одиночку. Четкие роли, спокойная коммуникация и склонность сначала смягчить ситуацию отделяют гладкий ответ от хаоса.
Как управлять инцидентом
1. ASSIGN roles — incident commander (coordinates), responders (fix),
comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
