目標はユーザーからの報告を受ける前にシステムが不健康であることを知ることです。優れたオブザーバビリティにより、固定されたダッシュボードセットをチェックするだけでなく、予期しなかった質問に答えることができます。テックリードとして、インシデント中ではなくその前にこれをセットアップします。
3つの柱
- Metrics — 安価な数値時系列データ(リクエストレート、エラーレート、遅延、キューの深さ)。トレンド、アラート、SLOに最適です。
目標はユーザーからの報告を受ける前にシステムが不健康であることを知ることです。優れたオブザーバビリティにより、固定されたダッシュボードセットをチェックするだけでなく、予期しなかった質問に答えることができます。テックリードとして、インシデント中ではなくその前にこれをセットアップします。
内部的なジッターではなく、ユーザーが感じるものでページングします。アラートをSLOに固定します: エラーレート、レイテンシー(p95/p99)、可用性。CPUスパイクはインシデントではありません。チェックアウトが2%のユーザーで失敗することがインシデントです。
| アラート対象 | ページングしない |
|---|---|
| SLOを超過するエラーレート | 単一のCPUスパイク |
| 予算超過のp99レイテンシー | 1つの遅いリクエスト |
| 失敗したヘルスチェック | ディスク60% |
各アラートは緊急で、実際で、アクショナブルである必要があります。何が間違っているかを名付け、次のステップを指します。常に発火するアラートはチームを無視するように訓練します。アラートファティーグは実際のインシデントが見逃される方法です。ヘルスチェックとゴールデンシグナルを一目で表示するダッシュボードを追加してください。
インシデント後にのみ監視するチームは視界が遮られています。怒ったカスタマーから障害について知り、推測でデバッグします。observabilityに最初から投資することで、午前3時のミステリーが5分間の診断に変わり、ダウンタイムが短縮され、チームが消火作業ではなくシップすることができるようになります。