インシデント中、あなたの仕事はサービスを落ち着いて復旧し、対応を調整することであり、一人で修正するヒーローになることではありません。明確な役割、落ち着いた communication、および最初に軽減することへの偏向が、スムーズな対応と混乱を分けます。
インシデントの実行方法
text
1. ASSIGN roles — incident commander (coordinates), responders (fix),
comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
診断する前に軽減する
根本原因を見つけたいという本能は強いですが、それに抵抗してください。ロールバックがサービスを復旧する場合、まずそれを行い、その後、プレッシャーを取り除いて落ち着いて調査してください。ユーザーは診断ではなく、ブロックを解除されることを気にしています。
