Senior#Leadership #Observabilitate #Incident

Site-ul tău de producție tocmai a căzut. Cum gestionezi situația?

Prima prioritate este să restabilești serviciul, apoi să găsești cauza — mitigarea vine înaintea diagnosticului. Aș declara un incident, aș aloca roluri clare și aș conduce spre cea mai rapidă recuperare sigură, comunicând pe tot parcursul.

Mai întâi stabilizează

Declară un incident și deschide un singur canal (war room / fir Slack) ca să nu se împrăștie coordonarea.
Alocă roluri: un Incident Commander care ia deciziile, un responsabil de comunicare care actualizează stakeholder-ii și responderi care investighează. Ca Tech Lead, preiau adesea rolul de IC ca inginerii să se poată concentra pe problemă.
Caută cea mai rapidă remediere reversibilă. Dacă un deploy se corelează cu căderea, fă rollback mai întâi și pune întrebări mai târziu — a restabili utilizatorii bate a avea dreptate.

Diagnostichează în paralel

Verifică semnalele evidente: dashboard-uri, rate de erori, deploy-uri recente, modificări de infrastructură, vârfuri de trafic, certificate expirate.
Formulează o ipoteză, testează mai întâi pe cea mai ieftină și evită să schimbi cinci lucruri deodată — nu vei ști ce a funcționat.

Comunică continuu

Tăcerea naște panică. Trimit actualizări la o cadență constantă chiar și când nu există noutăți:

less

[14:05] Investigăm — checkout-ul e căzut, ~40% dintre utilizatori afectați. Următoarea actualizare la 14:20.
[14:20] Identificat: deploy defectuos. Facem rollback acum. ETA 10 min.
[14:35] Serviciu restabilit. Monitorizăm. Urmează postmortem.

După recuperare

Confirmă recuperarea completă, nu doar „pare mai bine”.
Rulează un postmortem fără vină (blameless) în câteva zile: cronologie, cauză rădăcină, ce a făcut detectarea/repararea lentă și acțiuni concrete cu responsabili.
Rezultatul este îmbunătățirea sistemică (alerte mai bune, garduri de protecție, automatizarea rollback-ului) — nu un nume de blamat.

Capcane

Debugging înainte de mitigare în timp ce utilizatorii suferă.
Niciun decident unic, așa că cinci oameni ghicesc în paralel.
Tăcere față de stakeholder-i.
Blamarea indivizilor, ceea ce ucide onestitatea de care depind incidentele viitoare.

De ce contează

Căderile sunt inevitabile; modul în care le gestionezi definește încrederea echipei și încrederea clienților. Coordonarea calmă, bazată pe roluri, plus urmărirea fără vină transformă o zi proastă într-un sistem mai puternic — și le semnalează inginerilor că e sigur să se miște repede, pentru că eșecul e tratat ca un proces, nu ca o vânătoare de vrăjitoare.

Înapoi Tech Lead