可観測性は3つの柱——ログ、メトリクス、トレース——に基づいており、目標は手作業で検査できないほど大きいシステムに対して「何が悪いのか、そしてなぜか」に答えることです。大規模では、戦略は相関、サンプリング、およびコストに関するものです。
可観測性は3つの柱——ログ、メトリクス、トレース——に基づいており、目標は手作業で検査できないほど大きいシステムに対して「何が悪いのか、そしてなぜか」に答えることです。大規模では、戦略は相関、サンプリング、およびコストに関するものです。
ジュニアからシニアまで、詳細な回答付きのIT面接質問ライブラリ。
寄付する| 柱 | 答える内容 | ツール |
|---|
| メトリクス | 何か問題がありますか?(レート、レイテンシ) | Prometheus, Grafana |
| トレース | フロー内のどこか? | OpenTelemetry, Jaeger |
| ログ | 正確に何が起きたのか? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
トレース/相関IDはメトリクスラベル、ログ行、スパンを通じて流れる必要があり、これにより相互にピボットできます。
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
100%ですべてをログすることは費用対効果が悪く、信号をかき消します。代わりに、サンプリング、構造化、およびSLOに基づいたアラート通知を行ってください。
数百のサービスがある場合、SSH接続して確認することはできません——可観測性は本番環境の動作を理解する唯一の方法です。
勝つ戦略は相関し、サンプリングされ、SLO駆動です:テレメトリストレージで破産することなく、実際の問題をすばやく浮き彫りにします。あるいはon-callをノイズに埋め尽くします。