ਉਹ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹਨ ਕਿ ਤੁਸੀਂ ਸ਼ਾਂਤ, ਯੋਜਨਾਬੱਧ, ਅਤੇ ਦੋਸ਼ ਤੋਂ ਮੁਕਤ ਰਹੋ ਦਬਾਅ ਅਧੀਨ — ਪਹਿਲੇ ਸੇਵਾ ਨੂੰ ਬਹਾਲ ਕਰੋ, ਦੂਜੇ ਸਥਾਨ 'ਤੇ ਨਿਦਾਨ ਕਰੋ, ਅਤੇ ਤੀਜੇ ਸਥਾਨ 'ਤੇ ਦੁਬਾਰਾ ਹੋਣ ਤੋਂ ਰੋਕੋ। STAR ਵਰਤੋ।
ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ
text
INCIDENT ORDER
1. Stabilize — stop the bleeding (rollback, failover, mitigate)
2. Communicate — keep stakeholders updated on a clear channel
3. Diagnose — root cause once it's stable, not during
4. Prevent — a blameless post-mortem with action items
ਕਾਮ ਕੀਤੀ ਉਦਾਹਰਣ
text
S: A deploy caused checkout errors for ~15% of users.
T: I was on call and had to restore service fast.
A: I rolled back the deploy first (service recovered in minutes), posted updates
every 10 minutes, then traced the cause to an unhandled null from a new API
field. I added a guard and a contract test.
R: Downtime stayed under 20 minutes. The post-mortem added the missing test to
CI so it can't recur.
