પ્રથમ પ્રાથમિકતા છે સેવા પુનઃસ્થાપિત કરો, પછી કારણ શોધો — mitigation નિદાન પહેલા આવે છે. હું એક incident જાહેર કરીશ, સ્પષ્ટ ભૂમિકાઓ સોંપીશ, અને સૌથી ઝડપી સલામત recovery તરફ આગળ વધીશ, સમગ્ર સમય દરમિયાન સંવાદ કરતો રહીશ.
પ્રથમ પ્રાથમિકતા છે સેવા પુનઃસ્થાપિત કરો, પછી કારણ શોધો — mitigation નિદાન પહેલા આવે છે. હું એક incident જાહેર કરીશ, સ્પષ્ટ ભૂમિકાઓ સોંપીશ, અને સૌથી ઝડપી સલામત recovery તરફ આગળ વધીશ, સમગ્ર સમય દરમિયાન સંવાદ કરતો રહીશ.
મૌન ગભરાટ પેદા કરે છે. જ્યારે કોઈ સમાચાર ન હોય ત્યારે પણ હું સ્થિર cadence પર અપડેટ મોકલું છું:
[14:05] તપાસ ચાલુ — checkout બંધ છે, ~40% વપરાશકર્તાઓ પ્રભાવિત. આગામી અપડેટ 14:20.
[14:20] ઓળખાયું: ખરાબ deploy. હવે roll back કરી રહ્યા છીએ. ETA 10 મિનિટ.
[14:35] સેવા પુનઃસ્થાપિત. નિરીક્ષણ ચાલુ. Postmortem આવશે.
Outages અનિવાર્ય છે; તમે તેને કેવી રીતે ચલાવો છો તે ટીમના વિશ્વાસ અને ગ્રાહકના આત્મવિશ્વાસને વ્યાખ્યાયિત કરે છે. શાંત, ભૂમિકા-આધારિત સંકલન અને blameless follow-up એક ખરાબ દિવસને એક મજબૂત સિસ્ટમમાં ફેરવે છે — અને તમારા engineers ને સંકેત આપે છે કે ઝડપથી આગળ વધવું સલામત છે કારણ કે નિષ્ફળતા એક પ્રક્રિયા તરીકે સંભાળાય છે, ડાકણ-શોધ તરીકે નહીં.