Sapo ra website-i juaj në production. Si e trajtoni?

Question

Accepted Answer

Prioriteti i parë është **rikthe shërbimin, pastaj gjej shkakun** — zbutja vjen para diagnozës. Do të deklaroja një incident, do të caktoja role të qarta dhe do të drejtoja drejt rikthimit më të shpejtë të sigurt, duke komunikuar gjatë gjithë rrugës.

## Stabilizo së pari

- **Deklaro një incident** dhe hap një kanal të vetëm (war room / Slack thread) që koordinimi të mos jetë i shpërndarë.
- **Cakto role**: një **Incident Commander** për të marrë vendime, një **comms owner** për të përditësuar stakeholder-ët, dhe **responders** për të hetuar. Si Tech Lead shpesh marr rolin e IC-së që inxhinierët të fokusohen te problemi.
- **Përdor rregullimin më të shpejtë të kthyeshëm.** Nëse një deploy korrelon me outage-in, **bëj rollback** së pari dhe bëj pyetje më vonë — rikthimi i përdoruesve është më i rëndësishëm se të kesh të drejtë.

## Diagnostiko në paralel

- Kontrollo **sinjalet e dukshme**: dashboard-et, error rates, deploy-et e fundit, ndryshimet në infra, rritjet e trafikut, certifikatat e skaduara.
- Formo një hipotezë, testo më të lirën së pari, dhe **shmang ndryshimin e pesë gjërave njëherësh** — nuk do ta dish çfarë funksionoi.

## Komuniko vazhdimisht

Heshtja ushqen panikun. Dërgoj përditësime me një kadencë të qëndrueshme edhe kur nuk ka lajme:

```
[14:05] Po hetohet — checkout është jashtë funksionit, ~40% e përdoruesve të prekur. Përditësimi tjetër 14:20.
[14:20] Identifikuar: deploy i keq. Po bëhet rollback tani. ETA 10 min.
[14:35] Shërbimi u rikthye. Po monitorohet. Postmortem do të vijojë.
```

## Pas rikthimit

- Konfirmo rikthimin e plotë, jo vetëm "duket më mirë."
- Bëj një **postmortem blameless** brenda pak ditësh: timeline, root cause, çfarë e bëri të ngadaltë zbulimin/rregullimin, dhe **action items konkrete me pronarë**.
- Rezultati është përmirësim sistemik (alerte më të mira, guardrails, automatizim i rollback-ut) — jo një emër për të fajësuar.

## Kurthe

- **Debugging para zbutjes** ndërsa përdoruesit vuajnë.
- **Asnjë vendimmarrës i vetëm**, kështu që pesë veta hamendësojnë në paralel.
- **Heshtja** ndaj stakeholder-ëve.
- **Fajësimi i individëve**, që vret ndershmërinë nga e cila varen incident-et e ardhshme.

## Pse ka rëndësi

Outage-et janë të pashmangshme; mënyra si i menaxhoni përcakton besimin e ekipit dhe besimin e klientit. Koordinimi i qetë dhe i bazuar në role plus follow-up blameless e kthen një ditë të keqe në një sistem më të fortë — dhe u sinjalizon inxhinierëve tuaj se është e sigurt të lëvizet shpejt sepse dështimi trajtohet si proces, jo si gjueti shtrigash.