ਵੱਡੇ ਪੈਮਾਨੇ ਤੇ ਲੌਗਸ, ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਟ੍ਰੇਸਿਜ਼ ਲਈ ਨਿਰੀਖਣਯੋਗਤਾ ਰਣਨੀਤੀ ਕੀ ਹੈ?

Question

Accepted Answer

ਨਿਰੀਖਣਯੋਗਤਾ **ਤਿੰਨ ਸਤੰਭਾਂ** — **ਲੌਗਸ**, **ਮੈਟ੍ਰਿਕਸ** ਅਤੇ **ਟ੍ਰੇਸਿਜ਼** — ਉੱਤੇ ਟਿਕੀ ਹੈ, ਅਤੇ ਮਕਸਦ ਇਕ ਅਜਿਹੇ ਸਿਸਟਮ ਲਈ "ਕੀ ਗਲਤ ਹੈ ਅਤੇ ਕਿਉਂ" ਦਾ ਜਵਾਬ ਦੇਣਾ ਹੈ ਜੋ ਹੱਥ ਨਾਲ ਇਸਪੈਕਸ਼ਨ ਲਈ ਬਹੁਤ ਵੱਡਾ ਹੈ। ਵੱਡੇ ਪੈਮਾਨੇ ਤੇ, ਰਣਨੀਤੀ ਸਹਸਬੰਧ, ਸੈਂਪਲਿੰਗ ਅਤੇ ਲਾਗਤ ਬਾਰੇ ਹੈ।

## ਤਿੰਨ ਸਤੰਭ

| ਸਤੰਭ | ਜਵਾਬ ਦਿੰਦਾ ਹੈ | ਟੂਲਿੰਗ |
|---|---|---|
| ਮੈਟ੍ਰਿਕਸ | ਕੀ ਕੁਝ ਗਲਤ ਹੈ? (rates, latency) | Prometheus, Grafana |
| ਟ੍ਰੇਸਿਜ਼ | ਪ੍ਰਵਾਹ ਵਿਚ ਕਿੱਥੇ? | OpenTelemetry, Jaeger |
| ਲੌਗਸ | ਅਸਲ ਵਿੱਚ ਕੀ ਹੋਇਆ? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## ਉਨ੍ਹਾਂ ਨੂੰ ਸਹਸਬੰਧਿਤ ਕਰੋ

ਟ੍ਰੇਸ/ਸਹਸਬੰਧ ID ਨੂੰ ਮੈਟ੍ਰਿਕਸ ਲੇਬਲਸ, ਲੌਗ ਲਾਈਨਾਂ ਅਤੇ ਸਪੈਨਸ ਦੇ ਜ਼ਰੀਏ ਚੱਲਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਦੇ ਵਿਚਕਾਰ ਪਿਵਟ ਕਰ ਸਕੋ।

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## ਵੱਡੇ ਪੈਮਾਨੇ ਦੀਆਂ ਚਿੰਤਾਵਾਂ

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## ਪ੍ਰਮਾਣ

100% ਤੇ ਸਭ ਕੁਝ ਲੌਗ ਕਰਨਾ ਅਸੰਭਵ ਹੈ ਅਤੇ ਸਿਗਨਲ ਨੂੰ ਡੁੱਬ ਦਿੰਦਾ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਸੈਂਪਲ, ਸਟਰਕਚਰ ਅਤੇ SLOs ਉੱਤੇ ਅਲਰਟ ਕਰੋ।

## ਇਹ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ

ਸੈਂਕੜਿਆਂ ਸੇਵਾਵਾਂ ਦੇ ਨਾਲ, ਤੁਸੀਂ SSH ਨਾਲ ਲਾਗਇਨ ਨਹੀਂ ਕਰ ਸਕਦੇ ਅਤੇ ਨਹੀਂ ਦੇਖ ਸਕਦੇ — ਨਿਰੀਖਣਯੋਗਤਾ ਪਰੋਡਕਸ਼ਨ ਵਿਵਹਾਰ ਨੂੰ ਸਮਝਣ ਦਾ ਇਕਲੌਤਾ ਤਰੀਕਾ ਹੈ।

ਜੇਤੂ ਰਣਨੀਤੀ ਸਹਸਬੰਧਿਤ, ਸੈਂਪਲ ਕੀਤੀ ਅਤੇ SLO-ਚਾਲਿਤ ਹੈ: ਇਹ ਅਸਲ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਤੇਲੀਮੈਟਰੀ ਸਟੋਰੇਜ ਤੇ ਤੁਹਾਨੂੰ ਦੀਵਾਲੀਆ ਕੀਤੇ ਬਿਨਾਂ ਜਾਂ ਕਾਲ-ਅਨ-ਡਿਊਟੀ ਨੂੰ ਸ਼ੋਰ ਵਿੱਚ ਦਫ਼ਨ ਕੀਤੇ ਬਿਨਾਂ ਤੇਜ਼ੀ ਨਾਲ ਸਾਮਣੇ ਲਿਆਉਂਦਾ ਹੈ।

ਮੈਟ੍ਰਿਕਸ	ਕੀ ਕੁਝ ਗਲਤ ਹੈ? (rates, latency)	Prometheus, Grafana
ਟ੍ਰੇਸਿਜ਼	ਪ੍ਰਵਾਹ ਵਿਚ ਕਿੱਥੇ?	OpenTelemetry, Jaeger
ਲੌਗਸ	ਅਸਲ ਵਿੱਚ ਕੀ ਹੋਇਆ?	ELK, Loki