ਤੁਹਾਡੀ production ਵੈੱਬਸਾਈਟ ਹੁਣੇ ਬੰਦ ਹੋ ਗਈ ਹੈ। ਤੁਸੀਂ ਇਸ ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲਦੇ ਹੋ?

Question

Accepted Answer

ਪਹਿਲੀ ਤਰਜੀਹ ਹੈ **ਸੇਵਾ ਬਹਾਲ ਕਰੋ, ਫਿਰ ਕਾਰਨ ਲੱਭੋ** — mitigation ਨਿਦਾਨ ਤੋਂ ਪਹਿਲਾਂ ਆਉਂਦਾ ਹੈ। ਮੈਂ ਇੱਕ incident ਘੋਸ਼ਿਤ ਕਰਾਂਗਾ, ਸਪੱਸ਼ਟ ਭੂਮਿਕਾਵਾਂ ਸੌਂਪਾਂਗਾ, ਅਤੇ ਸਭ ਤੋਂ ਤੇਜ਼ ਸੁਰੱਖਿਅਤ recovery ਵੱਲ ਵਧਾਂਗਾ, ਪੂਰੇ ਰਾਹ ਵਿੱਚ ਸੰਚਾਰ ਕਰਦੇ ਹੋਏ।

## ਪਹਿਲਾਂ ਸਥਿਰ ਕਰੋ

- **ਇੱਕ incident ਘੋਸ਼ਿਤ ਕਰੋ** ਅਤੇ ਇੱਕ ਸਿੰਗਲ ਚੈਨਲ (war room / Slack thread) ਖੋਲ੍ਹੋ ਤਾਂ ਜੋ ਤਾਲਮੇਲ ਖਿੰਡਿਆ ਹੋਇਆ ਨਾ ਹੋਵੇ।
- **ਭੂਮਿਕਾਵਾਂ ਸੌਂਪੋ**: ਫ਼ੈਸਲੇ ਲੈਣ ਲਈ ਇੱਕ **Incident Commander**, stakeholders ਨੂੰ ਅੱਪਡੇਟ ਕਰਨ ਲਈ ਇੱਕ **comms owner**, ਅਤੇ ਜਾਂਚ ਲਈ **responders**। Tech Lead ਵਜੋਂ ਮੈਂ ਅਕਸਰ IC ਬਣਦਾ ਹਾਂ ਤਾਂ ਜੋ engineers ਸਮੱਸਿਆ 'ਤੇ ਧਿਆਨ ਦੇ ਸਕਣ।
- **ਸਭ ਤੋਂ ਤੇਜ਼ ਉਲਟਾਉਣਯੋਗ ਠੀਕ ਵੱਲ ਵਧੋ।** ਜੇ ਕੋਈ deploy outage ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਤਾਂ ਪਹਿਲਾਂ **roll back** ਕਰੋ ਅਤੇ ਸਵਾਲ ਬਾਅਦ ਵਿੱਚ ਪੁੱਛੋ — ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਬਹਾਲ ਕਰਨਾ ਸਹੀ ਹੋਣ ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ।

## ਸਮਾਨਾਂਤਰ ਨਿਦਾਨ ਕਰੋ

- **ਸਪੱਸ਼ਟ ਸੰਕੇਤ** ਜਾਂਚੋ: dashboards, error rates, ਹਾਲੀਆ deploys, infra ਬਦਲਾਅ, traffic spikes, ਮਿਆਦ ਪੁੱਗੇ certs।
- ਇੱਕ ਅਨੁਮਾਨ ਬਣਾਓ, ਸਭ ਤੋਂ ਸਸਤੇ ਨੂੰ ਪਹਿਲਾਂ ਟੈਸਟ ਕਰੋ, ਅਤੇ **ਇੱਕੋ ਵਾਰ ਪੰਜ ਚੀਜ਼ਾਂ ਬਦਲਣ ਤੋਂ ਬਚੋ** — ਤੁਹਾਨੂੰ ਪਤਾ ਨਹੀਂ ਲੱਗੇਗਾ ਕਿ ਕੀ ਕੰਮ ਕੀਤਾ।

## ਲਗਾਤਾਰ ਸੰਚਾਰ ਕਰੋ

ਚੁੱਪ ਘਬਰਾਹਟ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਮੈਂ ਇੱਕ ਸਥਿਰ ਤਾਲ 'ਤੇ ਅੱਪਡੇਟ ਭੇਜਦਾ ਹਾਂ ਭਾਵੇਂ ਕੋਈ ਖ਼ਬਰ ਨਾ ਹੋਵੇ:

```
[14:05] Investigating — checkout is down, ~40% of users affected. Next update 14:20.
[14:20] Identified: bad deploy. Rolling back now. ETA 10 min.
[14:35] Service restored. Monitoring. Postmortem to follow.
```

## recovery ਤੋਂ ਬਾਅਦ

- ਪੂਰੀ recovery ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ, ਸਿਰਫ਼ "ਇਹ ਬਿਹਤਰ ਲੱਗਦਾ ਹੈ" ਨਹੀਂ।
- ਕੁਝ ਦਿਨਾਂ ਅੰਦਰ ਇੱਕ **blameless postmortem** ਚਲਾਓ: timeline, ਮੂਲ ਕਾਰਨ, ਕਿਸ ਚੀਜ਼ ਨੇ ਇਸ ਨੂੰ ਪਤਾ ਲਗਾਉਣ/ਠੀਕ ਕਰਨ ਵਿੱਚ ਹੌਲੀ ਬਣਾਇਆ, ਅਤੇ **owners ਨਾਲ ਠੋਸ action items**।
- ਨਤੀਜਾ ਪ੍ਰਣਾਲੀਗਤ ਸੁਧਾਰ ਹੈ (ਬਿਹਤਰ alerts, guardrails, rollback automation) — ਨਾ ਕਿ ਦੋਸ਼ ਲਾਉਣ ਲਈ ਕੋਈ ਨਾਮ।

## ਗ਼ਲਤੀਆਂ

- ਜਦੋਂ ਉਪਭੋਗਤਾ ਪੀੜਤ ਹਨ ਤਾਂ **mitigation ਤੋਂ ਪਹਿਲਾਂ debugging ਕਰਨਾ**।
- **ਕੋਈ ਸਿੰਗਲ ਫ਼ੈਸਲਾ ਲੈਣ ਵਾਲਾ ਨਹੀਂ**, ਇਸ ਲਈ ਪੰਜ ਲੋਕ ਸਮਾਨਾਂਤਰ ਅੰਦਾਜ਼ੇ ਲਾਉਂਦੇ ਹਨ।
- stakeholders ਨਾਲ **ਚੁੱਪ ਹੋ ਜਾਣਾ**।
- **ਵਿਅਕਤੀਆਂ ਨੂੰ ਦੋਸ਼ ਦੇਣਾ**, ਜੋ ਉਸ ਇਮਾਨਦਾਰੀ ਨੂੰ ਮਾਰ ਦਿੰਦਾ ਹੈ ਜਿਸ 'ਤੇ ਭਵਿੱਖ ਦੇ incidents ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

## ਇਹ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ

Outages ਅਟੱਲ ਹਨ; ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਕਿਵੇਂ ਚਲਾਉਂਦੇ ਹੋ ਇਹ ਟੀਮ ਦੇ ਭਰੋਸੇ ਅਤੇ ਗਾਹਕ ਦੇ ਯਕੀਨ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਸ਼ਾਂਤ, ਭੂਮਿਕਾ-ਆਧਾਰਿਤ ਤਾਲਮੇਲ ਅਤੇ blameless follow-up ਇੱਕ ਬੁਰੇ ਦਿਨ ਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਸਿਸਟਮ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ — ਅਤੇ ਤੁਹਾਡੇ engineers ਨੂੰ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧਣਾ ਸੁਰੱਖਿਅਤ ਹੈ ਕਿਉਂਕਿ ਅਸਫਲਤਾ ਨੂੰ ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਵਜੋਂ ਸੰਭਾਲਿਆ ਜਾਂਦਾ ਹੈ, ਨਾ ਕਿ ਡੈਣ-ਸ਼ਿਕਾਰ ਵਜੋਂ।