ਪਹਿਲੀ ਤਰਜੀਹ ਹੈ ਸੇਵਾ ਬਹਾਲ ਕਰੋ, ਫਿਰ ਕਾਰਨ ਲੱਭੋ — mitigation ਨਿਦਾਨ ਤੋਂ ਪਹਿਲਾਂ ਆਉਂਦਾ ਹੈ। ਮੈਂ ਇੱਕ incident ਘੋਸ਼ਿਤ ਕਰਾਂਗਾ, ਸਪੱਸ਼ਟ ਭੂਮਿਕਾਵਾਂ ਸੌਂਪਾਂਗਾ, ਅਤੇ ਸਭ ਤੋਂ ਤੇਜ਼ ਸੁਰੱਖਿਅਤ recovery ਵੱਲ ਵਧਾਂਗਾ, ਪੂਰੇ ਰਾਹ ਵਿੱਚ ਸੰਚਾਰ ਕਰਦੇ ਹੋਏ।
ਪਹਿਲੀ ਤਰਜੀਹ ਹੈ ਸੇਵਾ ਬਹਾਲ ਕਰੋ, ਫਿਰ ਕਾਰਨ ਲੱਭੋ — mitigation ਨਿਦਾਨ ਤੋਂ ਪਹਿਲਾਂ ਆਉਂਦਾ ਹੈ। ਮੈਂ ਇੱਕ incident ਘੋਸ਼ਿਤ ਕਰਾਂਗਾ, ਸਪੱਸ਼ਟ ਭੂਮਿਕਾਵਾਂ ਸੌਂਪਾਂਗਾ, ਅਤੇ ਸਭ ਤੋਂ ਤੇਜ਼ ਸੁਰੱਖਿਅਤ recovery ਵੱਲ ਵਧਾਂਗਾ, ਪੂਰੇ ਰਾਹ ਵਿੱਚ ਸੰਚਾਰ ਕਰਦੇ ਹੋਏ।
ਚੁੱਪ ਘਬਰਾਹਟ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਮੈਂ ਇੱਕ ਸਥਿਰ ਤਾਲ 'ਤੇ ਅੱਪਡੇਟ ਭੇਜਦਾ ਹਾਂ ਭਾਵੇਂ ਕੋਈ ਖ਼ਬਰ ਨਾ ਹੋਵੇ:
[14:05] Investigating — checkout is down, ~40% of users affected. Next update 14:20.
[14:20] Identified: bad deploy. Rolling back now. ETA 10 min.
[14:35] Service restored. Monitoring. Postmortem to follow.
Outages ਅਟੱਲ ਹਨ; ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਕਿਵੇਂ ਚਲਾਉਂਦੇ ਹੋ ਇਹ ਟੀਮ ਦੇ ਭਰੋਸੇ ਅਤੇ ਗਾਹਕ ਦੇ ਯਕੀਨ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਸ਼ਾਂਤ, ਭੂਮਿਕਾ-ਆਧਾਰਿਤ ਤਾਲਮੇਲ ਅਤੇ blameless follow-up ਇੱਕ ਬੁਰੇ ਦਿਨ ਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਸਿਸਟਮ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ — ਅਤੇ ਤੁਹਾਡੇ engineers ਨੂੰ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧਣਾ ਸੁਰੱਖਿਅਤ ਹੈ ਕਿਉਂਕਿ ਅਸਫਲਤਾ ਨੂੰ ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਵਜੋਂ ਸੰਭਾਲਿਆ ਜਾਂਦਾ ਹੈ, ਨਾ ਕਿ ਡੈਣ-ਸ਼ਿਕਾਰ ਵਜੋਂ।