ログ、メトリクス、トレースの大規模な可観測性戦略とは何ですか?

Question

Accepted Answer

可観測性は**3つの柱**——**ログ**、**メトリクス**、**トレース**——に基づいており、目標は手作業で検査できないほど大きいシステムに対して「何が悪いのか、そしてなぜか」に答えることです。大規模では、戦略は相関、サンプリング、およびコストに関するものです。

## 3つの柱

| 柱 | 答える内容 | ツール |
|---|---|---|
| メトリクス | 何か問題がありますか?(レート、レイテンシ) | Prometheus, Grafana |
| トレース | フロー内のどこか? | OpenTelemetry, Jaeger |
| ログ | 正確に何が起きたのか? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## 相関させる

トレース/相関IDはメトリクスラベル、ログ行、スパンを通じて流れる必要があり、これにより相互にピボットできます。

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## 大規模での懸念事項

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## 落とし穴

100%ですべてをログすることは費用対効果が悪く、信号をかき消します。代わりに、サンプリング、構造化、およびSLOに基づいたアラート通知を行ってください。

## なぜ重要なのか

数百のサービスがある場合、SSH接続して確認することはできません——可観測性は本番環境の動作を理解する唯一の方法です。

勝つ戦略は相関し、サンプリングされ、SLO駆動です:テレメトリストレージで破産することなく、実際の問題をすばやく浮き彫りにします。あるいはon-callをノイズに埋め尽くします。

メトリクス	何か問題がありますか?(レート、レイテンシ)	Prometheus, Grafana
トレース	フロー内のどこか?	OpenTelemetry, Jaeger
ログ	正確に何が起きたのか?	ELK, Loki