તમારી production website હમણાં જ બંધ થઈ ગઈ. તમે તેને કેવી રીતે સંભાળો છો?

Question

Accepted Answer

પ્રથમ પ્રાથમિકતા છે **સેવા પુનઃસ્થાપિત કરો, પછી કારણ શોધો** — mitigation નિદાન પહેલા આવે છે. હું એક incident જાહેર કરીશ, સ્પષ્ટ ભૂમિકાઓ સોંપીશ, અને સૌથી ઝડપી સલામત recovery તરફ આગળ વધીશ, સમગ્ર સમય દરમિયાન સંવાદ કરતો રહીશ.

## પહેલા સ્થિર કરો

- **incident જાહેર કરો** અને એક જ ચેનલ (war room / Slack thread) ખોલો જેથી સંકલન વિખરાય નહીં.
- **ભૂમિકાઓ સોંપો**: નિર્ણયો લેવા માટે એક **Incident Commander**, stakeholders ને અપડેટ કરવા માટે એક **comms owner**, અને તપાસ કરવા માટે **responders**. Tech Lead તરીકે હું ઘણીવાર IC લઈ લઉં છું જેથી engineers સમસ્યા પર ધ્યાન કેન્દ્રિત કરી શકે.
- **સૌથી ઝડપી reversible fix સુધી પહોંચો.** જો કોઈ deploy outage સાથે સંબંધિત હોય, તો પહેલા **roll back** કરો અને પ્રશ્નો પછી પૂછો — વપરાશકર્તાઓને પુનઃસ્થાપિત કરવું એ સાચા હોવા કરતાં વધુ સારું છે.

## સમાંતરમાં નિદાન કરો

- **સ્પષ્ટ સંકેતો** તપાસો: dashboards, error rates, તાજેતરના deploys, infra ફેરફારો, traffic spikes, expired certs.
- એક hypothesis બનાવો, સૌથી સસ્તાનું પહેલા પરીક્ષણ કરો, અને **એક સાથે પાંચ વસ્તુઓ બદલવાનું ટાળો** — તમને ખબર નહીં પડે કે શું કામ કર્યું.

## સતત સંવાદ કરો

મૌન ગભરાટ પેદા કરે છે. જ્યારે કોઈ સમાચાર ન હોય ત્યારે પણ હું સ્થિર cadence પર અપડેટ મોકલું છું:

```
[14:05] તપાસ ચાલુ — checkout બંધ છે, ~40% વપરાશકર્તાઓ પ્રભાવિત. આગામી અપડેટ 14:20.
[14:20] ઓળખાયું: ખરાબ deploy. હવે roll back કરી રહ્યા છીએ. ETA 10 મિનિટ.
[14:35] સેવા પુનઃસ્થાપિત. નિરીક્ષણ ચાલુ. Postmortem આવશે.
```

## Recovery પછી

- સંપૂર્ણ recovery ની પુષ્ટિ કરો, માત્ર "તે વધુ સારું દેખાય છે" નહીં.
- થોડા દિવસોમાં **blameless postmortem** ચલાવો: timeline, root cause, શાથી તેને શોધવા/ઠીક કરવામાં ધીમું થયું, અને **owners સાથેના નક્કર action items**.
- પરિણામ એ systemic સુધારો છે (વધુ સારા alerts, guardrails, rollback automation) — દોષ આપવાનું નામ નહીં.

## ભૂલો

- **mitigate કરતા પહેલા debugging** જ્યારે વપરાશકર્તાઓ સહન કરી રહ્યા હોય.
- **કોઈ એક નિર્ણય લેનાર નહીં**, જેથી પાંચ લોકો સમાંતરમાં અનુમાન કરે.
- stakeholders પર **અંધારામાં જવું**.
- **વ્યક્તિઓને દોષ આપવો**, જે પ્રામાણિકતાને મારી નાખે છે જેના પર ભવિષ્યના incidents આધાર રાખે છે.

## આ શા માટે મહત્વનું છે

Outages અનિવાર્ય છે; તમે તેને કેવી રીતે ચલાવો છો તે ટીમના વિશ્વાસ અને ગ્રાહકના આત્મવિશ્વાસને વ્યાખ્યાયિત કરે છે. શાંત, ભૂમિકા-આધારિત સંકલન અને blameless follow-up એક ખરાબ દિવસને એક મજબૂત સિસ્ટમમાં ફેરવે છે — અને તમારા engineers ને સંકેત આપે છે કે ઝડપથી આગળ વધવું સલામત છે કારણ કે નિષ્ફળતા એક પ્રક્રિયા તરીકે સંભાળાય છે, ડાકણ-શોધ તરીકે નહીં.