Prima prioritate este să restabilești serviciul, apoi să găsești cauza — mitigarea vine înaintea diagnosticului. Aș declara un incident, aș aloca roluri clare și aș conduce spre cea mai rapidă recuperare sigură, comunicând pe tot parcursul.
Mai întâi stabilizează
- Declară un incident și deschide un singur canal (war room / fir Slack) ca să nu se împrăștie coordonarea.
- Alocă roluri: un Incident Commander care ia deciziile, un responsabil de comunicare care actualizează stakeholder-ii și responderi care investighează. Ca Tech Lead, preiau adesea rolul de IC ca inginerii să se poată concentra pe problemă.
- Caută cea mai rapidă remediere reversibilă. Dacă un deploy se corelează cu căderea, fă rollback mai întâi și pune întrebări mai târziu — a restabili utilizatorii bate a avea dreptate.
Diagnostichează în paralel
- Verifică semnalele evidente: dashboard-uri, rate de erori, deploy-uri recente, modificări de infrastructură, vârfuri de trafic, certificate expirate.
- Formulează o ipoteză, testează mai întâi pe cea mai ieftină și evită să schimbi cinci lucruri deodată — nu vei ști ce a funcționat.
Comunică continuu
Tăcerea naște panică. Trimit actualizări la o cadență constantă chiar și când nu există noutăți:
less
[14:05] Investigăm — checkout-ul e căzut, ~40% dintre utilizatori afectați. Următoarea actualizare la 14:20.
[14:20] Identificat: deploy defectuos. Facem rollback acum. ETA 10 min.
[14:35] Serviciu restabilit. Monitorizăm. Urmează postmortem.
După recuperare
- Confirmă recuperarea completă, nu doar „pare mai bine”.
- Rulează un postmortem fără vină (blameless) în câteva zile: cronologie, cauză rădăcină, ce a făcut detectarea/repararea lentă și acțiuni concrete cu responsabili.
- Rezultatul este îmbunătățirea sistemică (alerte mai bune, garduri de protecție, automatizarea rollback-ului) — nu un nume de blamat.
Capcane
- Debugging înainte de mitigare în timp ce utilizatorii suferă.
- Niciun decident unic, așa că cinci oameni ghicesc în paralel.
- Tăcere față de stakeholder-i.
- Blamarea indivizilor, ceea ce ucide onestitatea de care depind incidentele viitoare.
De ce contează
Căderile sunt inevitabile; modul în care le gestionezi definește încrederea echipei și încrederea clienților. Coordonarea calmă, bazată pe roluri, plus urmărirea fără vină transformă o zi proastă într-un sistem mai puternic — și le semnalează inginerilor că e sigur să se miște repede, pentru că eșecul e tratat ca un proces, nu ca o vânătoare de vrăjitoare.
