ਨਿਰੀਖਣਯੋਗਤਾ ਤਿੰਨ ਸਤੰਭਾਂ — ਲੌਗਸ, ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਟ੍ਰੇਸਿਜ਼ — ਉੱਤੇ ਟਿਕੀ ਹੈ, ਅਤੇ ਮਕਸਦ ਇਕ ਅਜਿਹੇ ਸਿਸਟਮ ਲਈ "ਕੀ ਗਲਤ ਹੈ ਅਤੇ ਕਿਉਂ" ਦਾ ਜਵਾਬ ਦੇਣਾ ਹੈ ਜੋ ਹੱਥ ਨਾਲ ਇਸਪੈਕਸ਼ਨ ਲਈ ਬਹੁਤ ਵੱਡਾ ਹੈ। ਵੱਡੇ ਪੈਮਾਨੇ ਤੇ, ਰਣਨੀਤੀ ਸਹਸਬੰਧ, ਸੈਂਪਲਿੰਗ ਅਤੇ ਲਾਗਤ ਬਾਰੇ ਹੈ।
ਨਿਰੀਖਣਯੋਗਤਾ ਤਿੰਨ ਸਤੰਭਾਂ — ਲੌਗਸ, ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਟ੍ਰੇਸਿਜ਼ — ਉੱਤੇ ਟਿਕੀ ਹੈ, ਅਤੇ ਮਕਸਦ ਇਕ ਅਜਿਹੇ ਸਿਸਟਮ ਲਈ "ਕੀ ਗਲਤ ਹੈ ਅਤੇ ਕਿਉਂ" ਦਾ ਜਵਾਬ ਦੇਣਾ ਹੈ ਜੋ ਹੱਥ ਨਾਲ ਇਸਪੈਕਸ਼ਨ ਲਈ ਬਹੁਤ ਵੱਡਾ ਹੈ। ਵੱਡੇ ਪੈਮਾਨੇ ਤੇ, ਰਣਨੀਤੀ ਸਹਸਬੰਧ, ਸੈਂਪਲਿੰਗ ਅਤੇ ਲਾਗਤ ਬਾਰੇ ਹੈ।
| ਸਤੰਭ | ਜਵਾਬ ਦਿੰਦਾ ਹੈ | ਟੂਲਿੰਗ |
|---|
| ਮੈਟ੍ਰਿਕਸ | ਕੀ ਕੁਝ ਗਲਤ ਹੈ? (rates, latency) | Prometheus, Grafana |
| ਟ੍ਰੇਸਿਜ਼ | ਪ੍ਰਵਾਹ ਵਿਚ ਕਿੱਥੇ? | OpenTelemetry, Jaeger |
| ਲੌਗਸ | ਅਸਲ ਵਿੱਚ ਕੀ ਹੋਇਆ? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
ਟ੍ਰੇਸ/ਸਹਸਬੰਧ ID ਨੂੰ ਮੈਟ੍ਰਿਕਸ ਲੇਬਲਸ, ਲੌਗ ਲਾਈਨਾਂ ਅਤੇ ਸਪੈਨਸ ਦੇ ਜ਼ਰੀਏ ਚੱਲਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਦੇ ਵਿਚਕਾਰ ਪਿਵਟ ਕਰ ਸਕੋ।
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
100% ਤੇ ਸਭ ਕੁਝ ਲੌਗ ਕਰਨਾ ਅਸੰਭਵ ਹੈ ਅਤੇ ਸਿਗਨਲ ਨੂੰ ਡੁੱਬ ਦਿੰਦਾ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਸੈਂਪਲ, ਸਟਰਕਚਰ ਅਤੇ SLOs ਉੱਤੇ ਅਲਰਟ ਕਰੋ।
ਸੈਂਕੜਿਆਂ ਸੇਵਾਵਾਂ ਦੇ ਨਾਲ, ਤੁਸੀਂ SSH ਨਾਲ ਲਾਗਇਨ ਨਹੀਂ ਕਰ ਸਕਦੇ ਅਤੇ ਨਹੀਂ ਦੇਖ ਸਕਦੇ — ਨਿਰੀਖਣਯੋਗਤਾ ਪਰੋਡਕਸ਼ਨ ਵਿਵਹਾਰ ਨੂੰ ਸਮਝਣ ਦਾ ਇਕਲੌਤਾ ਤਰੀਕਾ ਹੈ।
ਜੇਤੂ ਰਣਨੀਤੀ ਸਹਸਬੰਧਿਤ, ਸੈਂਪਲ ਕੀਤੀ ਅਤੇ SLO-ਚਾਲਿਤ ਹੈ: ਇਹ ਅਸਲ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਤੇਲੀਮੈਟਰੀ ਸਟੋਰੇਜ ਤੇ ਤੁਹਾਨੂੰ ਦੀਵਾਲੀਆ ਕੀਤੇ ਬਿਨਾਂ ਜਾਂ ਕਾਲ-ਅਨ-ਡਿਊਟੀ ਨੂੰ ਸ਼ੋਰ ਵਿੱਚ ਦਫ਼ਨ ਕੀਤੇ ਬਿਨਾਂ ਤੇਜ਼ੀ ਨਾਲ ਸਾਮਣੇ ਲਿਆਉਂਦਾ ਹੈ।