最優先はまずサービスを復旧し、それから原因を見つけることです。緩和が診断に先行します。私ならincidentを宣言し、役割を明確に割り当て、コミュニケーションを取り続けながら、最も速く安全な復旧に向けて推進します。
最優先はまずサービスを復旧し、それから原因を見つけることです。緩和が診断に先行します。私ならincidentを宣言し、役割を明確に割り当て、コミュニケーションを取り続けながら、最も速く安全な復旧に向けて推進します。
沈黙はパニックを生みます。私はニュースがないときでも、安定したリズムで更新を送ります:
[14:05] 調査中 — checkoutがダウン、約40%のユーザーに影響。次の更新は14:20。
[14:20] 特定: 不正なデプロイ。今からrollback中。ETA 10分。
[14:35] サービス復旧。監視中。postmortemは後ほど。
障害は避けられません。それをどう運用するかが、チームの信頼と顧客の信用を定義します。冷静で役割ベースの調整と、blamelessなフォローアップが、悪い一日をより強いシステムへと変えます。そしてそれは、失敗が魔女狩りではなくプロセスとして扱われるからこそ速く動いても安全だ、とエンジニアに示すことになります。