基本的なルール: 症状に基づいてアラートを出し、原因ではなく、対応可能で緊急な事項のみにページを限定する。毎晩発動するノイジーなアラートはミュートされるか無視される — 本当のリスクは、アラートの欠落ではなく、実際の障害で寝過ごす無感覚なオンコールです。
なぜ重要なのか
ユーザー向けの SLO(エラー率、レイテンシ、可用性)にアラートを出し、"CPU > 80%" などの内部的な原因にはアラートを出さないでください。CPU が高い可能性がありますが、重要なのはユーザーが影響を受けているかどうかです。
