పర్యవేక్షణ మూడు స్తంభాలపై ఆధారపడి ఉంది — లాగ్లు, మెట్రిక్లు మరియు ట్రేస్లు — మరియు లక్ష్యం చేతితో తనిఖీ చేయడానికి చాలా పెద్ద సిస్టమ్కు "ఏమి తప్పు మరియు ఎందుకు" అని సమాధానం ఇవ్వడం. పెద్ద స్థాయిలో, వ్యూహం సంబంధం, నమూనా మరియు ఖర్చుల గురించి.
పర్యవేక్షణ మూడు స్తంభాలపై ఆధారపడి ఉంది — లాగ్లు, మెట్రిక్లు మరియు ట్రేస్లు — మరియు లక్ష్యం చేతితో తనిఖీ చేయడానికి చాలా పెద్ద సిస్టమ్కు "ఏమి తప్పు మరియు ఎందుకు" అని సమాధానం ఇవ్వడం. పెద్ద స్థాయిలో, వ్యూహం సంబంధం, నమూనా మరియు ఖర్చుల గురించి.
| స్తంభం | సమాధానాలు | సాధనాలు |
|---|
| మెట్రిక్లు | ఏదైనా తప్పు ఉందా? (రేట్లు, జిడ్డు) | Prometheus, Grafana |
| ట్రేస్లు | ప్రవాహంలో ఎక్కడ? | OpenTelemetry, Jaeger |
| లాగ్లు | సరిగ్గా ఏమి జరిగింది? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
ట్రేస్/సహసంబంధ ID మెట్రిక్ల లేబిల్ల, లాగ్ లైన్ల మరియు స్పాన్ల ద్వారా థ్రెడ్ చేయాలి, తద్వారా మీరు వాటి మధ్య తిరిగేందుకు చేయవచ్చు.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
100% వద్ద ప్రతిదాన్ని లాగ్ చేయడం సామర్థ్యం లేనిది మరియు సిగ్నల్ను మునిగిపోయిస్తుంది. బదులుగా నమూనా, నిర్మాణం మరియు SLOలపై అలర్ట్ చేయండి.
శత కార్యాలయాలతో, మీరు SSH లోకి వెళ్లి చూడలేరు — పర్యవేక్షణ ఉత్పత్తి ప్రవర్తనను అర్థం చేసుకోవడానికి ఏకైక మార్గం.
విజయవంతమైన వ్యూహం సంబంధిత, నమూనా మరియు SLO-ఆధారిత: ఇది నిజమైన సమస్యలను కేవలం టెలిమెట్రీ నిల్వ మీపై బ్యাంక్రప్ట్ లేదా కాల్ నుండి శబ్దంలో ఖననం చేయకుండా త్వరగా ఉపరితలం చేస్తుంది.