Προστάτεψε τους ανθρώπους ώστε να μπορούν να προστατεύσουν το σύστημα. Σε ένα μακρύ incident, το ηθικό καταρρέει από το χάος, την εξάντληση και τον φόβο της κατηγορίας — οπότε η δουλειά σου ως Tech Lead είναι να αφαιρέσεις και τα τρία: φέρε δομή, επίβαλε ξεκούραση, και απορρόφησε την πίεση από πάνω ώστε η ομάδα να μπορεί να σκεφτεί.
Τι πραγματικά κάνω
- Καθιέρωσε ξεκάθαρους ρόλους. Όρισε έναν Incident Commander, ένα άτομο comms, και hands-on responders. Όταν όλοι ξέρουν τη λωρίδα τους, ο πανικός πέφτει και η εστίαση επιστρέφει.
- Θωράκισε την ομάδα. Πάρε τις ενημερώσεις stakeholders και την πίεση του management πάνω σου. Οι μηχανικοί που κάνουν debug δεν πρέπει επίσης να απαντούν στο "διορθώθηκε ακόμα;" κάθε δέκα λεπτά.
- Κάνε rotate και επίβαλε διαλείμματα. Οι εξαντλημένοι άνθρωποι κάνουν το outage χειρότερο. Για οτιδήποτε πολύωρο, στήσε βάρδιες ώστε κανείς να μην τρέχει στα τελευταία του — οι κουρασμένοι responders προκαλούν το δεύτερο incident.
- Μείνε ήρεμος και συγκεκριμένος. Σταθερός τόνος, μικρά επόμενα βήματα, ορατή πρόοδος. Η ηρεμία είναι μεταδοτική· το ίδιο και ο πανικός. Αναγνώρισε το άγχος ειλικρινά αντί να προσποιείσαι ότι είναι όλα καλά.
- Τάισε και ρύθμισε τον ρυθμό των ανθρώπων. Παράγγειλε φαγητό, κάλεσε ρητές παύσεις, γιόρτασε μικρές νίκες ("το error rate πέφτει"). Η παρατεταμένη κρίση χρειάζεται βιώσιμο ρυθμό.
Μετά το τέλος
- Ευχαρίστησε τους ανθρώπους συγκεκριμένα και δημόσια, και βεβαιώσου ότι η ηγεσία βλέπει την προσπάθεια.
- Δώσε χρόνο ανάκαμψης — ένα δύσκολο incident κερδίζει ξεκούραση, όχι κατευθείαν πίσω στο sprint.
- Τρέξε το blameless postmortem ώστε το άγχος να μετατραπεί σε διαρκή βελτίωση, και ώστε κανείς να μην κουβαλά ιδιωτική ενοχή.
Trade-offs και παγίδες
- Κουλτούρα ηρώων — το να αφήνεις ένα άτομο να ξεσκίζεται 18 ώρες μοιάζει ηρωικό αλλά τον καίει και δημιουργεί ρίσκο bus-factor. Αντιστάσου.
- Τοξική θετικότητα — το "μείνε θετικός!" χωρίς να αναγνωρίζεις την πραγματικότητα διαβάζεται ως απαξιωτικό και διαβρώνει την εμπιστοσύνη.
- Η κατηγορία τη στιγμή είναι δηλητήριο για το ηθικό· ανέβαλε κάθε κρίση για το postmortem, και ακόμα κι εκεί κράτησέ το blameless.
- Μην παραλείψεις την ανθρώπινη ανάκαμψη για να φαίνεσαι παραγωγικός· το burnout εμφανίζεται δύο εβδομάδες αργότερα ως αποχώρηση.
Γιατί έχει σημασία
Τα incidents δοκιμάζουν την κουλτούρα περισσότερο από την ικανότητα. Το πώς αντιμετωπίζεται μια ομάδα κατά τις χειρότερες ώρες της θυμάται για χρόνια και διαμορφώνει το αν οι καλοί μηχανικοί θα μείνουν. Ένας Tech Lead που κρατά τους ανθρώπους σταθερούς, ξεκούραστους και χωρίς κατηγορία υπό πίεση χτίζει το είδος της εμπιστοσύνης και της ανθεκτικότητας που κανένα management σε καλό καιρό δεν μπορεί να αγοράσει.
