ในระหว่างเหตุการณ์ งานของคุณคือ คืนสถานะการให้บริการอย่างสงบและประสานงานการตอบสนอง ไม่ใช่เป็นฮีโร่ที่แก้ไขเพียงลำพัง บทบาทที่ชัดเจน การสื่อสารที่สงบ และความเอนเอียงในการลดผลกระทบก่อน แยกการตอบสนองที่เรียบรื่อยจากความสับสน
วิธีจัดการกับเหตุการณ์
1. ASSIGN roles — incident commander (coordinates), responders (fix),
comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
ลดผลกระทบก่อนการวินิจฉัย
สัญชาตญาณในการค้นหาสาเหตุ root cause นั้นแข็งแกร่ง ต้านทาน หากการ rollback คืนสถานะบริการ ให้ทำเช่นนั้น จากนั้นสืบสวนอย่างสงบเมื่อแรงกดดันหายไป ผู้ใช้สนใจที่จะได้รับการยกเลิกบล็อก ไม่ใช่การวินิจฉัยของคุณ
