პირველი პრიორიტეტია სერვისის აღდგენა, შემდეგ მიზეზის პოვნა — mitigation დიაგნოზამდე მოდის. გამოვაცხადებდი incident-ს, განვაწილებდი მკაფიო როლებს და ვიმოძრავებდი ყველაზე სწრაფი უსაფრთხო აღდგენისკენ, მთელი გზის განმავლობაში კომუნიკაციით.
პირველი პრიორიტეტია სერვისის აღდგენა, შემდეგ მიზეზის პოვნა — mitigation დიაგნოზამდე მოდის. გამოვაცხადებდი incident-ს, განვაწილებდი მკაფიო როლებს და ვიმოძრავებდი ყველაზე სწრაფი უსაფრთხო აღდგენისკენ, მთელი გზის განმავლობაში კომუნიკაციით.
სიჩუმე პანიკას აჩენს. ვაგზავნი განახლებებს მუდმივი რიტმით მაშინაც კი, როცა სიახლე არ არის:
[14:05] ვიკვლევთ — checkout გათიშულია, ~40% მომხმარებელი დაზარალდა. შემდეგი განახლება 14:20.
[14:20] დადგინდა: ცუდი deploy. ვაკეთებთ rollback-ს. ETA 10 წთ.
[14:35] სერვისი აღდგა. ვაკვირდებით. postmortem მოჰყვება.
outage-ები გარდაუვალია; როგორ მართავთ მათ, განსაზღვრავს გუნდის ნდობასა და მომხმარებლის ნდობას. მშვიდი, როლებზე დაფუძნებული კოორდინაცია plus blameless შემდგომი ნაბიჯები ცუდ დღეს უფრო ძლიერ სისტემად აქცევს — და ინჟინრებს ანიშნებს, რომ უსაფრთხოა სწრაფად მოძრაობა, რადგან წარუმატებლობა პროცესად განიხილება და არა ჯადოქრების ნადირობად.