監視とオブザーバビリティをどのようにセットアップして問題を早期に検出しますか?

Question

Accepted Answer

目標は**ユーザーからの報告を受ける前にシステムが不健康であることを知ること**です。優れたオブザーバビリティにより、固定されたダッシュボードセットをチェックするだけでなく、予期しなかった質問に答えることができます。テックリードとして、インシデント中ではなく**その前に**これをセットアップします。

## 3つの柱

- **Metrics** — 安価な数値時系列データ(リクエストレート、エラーレート、遅延、キューの深さ)。トレンド、アラート、SLOに最適です。
- **Logs** — 何が起こったかの理由を詳しく記録したイベントレコード。**構造化**(JSON)にし、**相関ID**を添付してサービス全体の1つのリクエストを追跡できるようにします。
- **Traces** — サービス全体での単一リクエストのパス。時間が実際にどこで費やされているかを示します。分散システムに不可欠です。

## 症状に基づいてアラート、ノイズは無視

内部的なジッターではなく、**ユーザーが感じるもの**でページングします。アラートを**SLO**に固定します: エラーレート、レイテンシー(p95/p99)、可用性。CPUスパイクはインシデントではありません。チェックアウトが2%のユーザーで失敗することがインシデントです。

| アラート対象 | ページングしない |
| --- | --- |
| SLOを超過するエラーレート | 単一のCPUスパイク |
| 予算超過のp99レイテンシー | 1つの遅いリクエスト |
| 失敗したヘルスチェック | ディスク60% |

## アラートをアクショナブルにする

各アラートは**緊急で、実際で、アクショナブル**である必要があります。何が間違っているかを名付け、次のステップを指します。常に発火するアラートはチームを無視するように訓練します。**アラートファティーグ**は実際のインシデントが見逃される方法です。**ヘルスチェック**とゴールデンシグナルを一目で表示するダッシュボードを追加してください。

## なぜ重要なのか

インシデント後にのみ監視するチームは視界が遮られています。怒ったカスタマーから障害について知り、推測でデバッグします。observabilityに最初から投資することで、午前3時のミステリーが5分間の診断に変わり、ダウンタイムが短縮され、チームが消火作業ではなくシップすることができるようになります。

アラート対象	ページングしない
SLOを超過するエラーレート	単一のCPUスパイク
予算超過のp99レイテンシー	1つの遅いリクエスト
失敗したヘルスチェック	ディスク60%