கவனிப்பு மூன்று தூண்களின் மீது நிற்கிறது — பதிவுகள், அளவீடுகள் மற்றும் சுவடுகள் — மேலும் இலக்கு கையால் ஆய்வு செய்ய மிகவும் பெரிய ஒரு அமைப்பிற்கு "என்ன தவறு மற்றும் ஏன்" என்று பதிலளிப்பது. பெரிய அளவில், உத்தி தொடர்பு, மாதிரி மற்றும் செலவு பற்றியது.
கவனிப்பு மூன்று தூண்களின் மீது நிற்கிறது — பதிவுகள், அளவீடுகள் மற்றும் சுவடுகள் — மேலும் இலக்கு கையால் ஆய்வு செய்ய மிகவும் பெரிய ஒரு அமைப்பிற்கு "என்ன தவறு மற்றும் ஏன்" என்று பதிலளிப்பது. பெரிய அளவில், உத்தி தொடர்பு, மாதிரி மற்றும் செலவு பற்றியது.
| தூண் | பதिலளிக்கிறது | கருவிகள் |
|---|
| அளவீடுகள் | ஏதாவது தவறு உள்ளதா? (விகிதங்கள், தாமதம்) | Prometheus, Grafana |
| சுவடுகள் | ஓட்டத்தில் எங்கே? | OpenTelemetry, Jaeger |
| பதிவுகள் | சரியாக என்ன நடந்தது? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
சுவடு/தொடர்பு ID மெட்ரிக்ஸ் லேபிள்கள், பதிவு வரிகள் மற்றும் ஸ்பான்களின் மூலம் நூல் செய்ய வேண்டும், இதனால் நீங்கள் அவற்றுக்கு இடையে பிவট் செய்ய முடியும்.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
100% இல் எல்லாவற்றையும் பதிவு செய்வது மலிந்ததாக இல்லை மற்றும் சமிக்ஞையை மூழ்கடிக்கிறது. மாதிரி, கட்டமைப்பு மற்றும் SLO பற்றி எச்சரிக்கை விடுங்கள்.
শত ஆண்டுகளாக சேவைகள் மூலம், நீங்கள் SSH இல் நுழைந்து பார்க்க முடியாது — கவனிப்பு உற்பத்தி நடத்தையைப் புரிந்துகொள்ள유일한் வழி.
வெற்றிகரமான உத்தி தொடர்பு, மாதிரি மற்றும் SLO-இயக்கப்படுவது: இது நிஜமான சிக்கல்களை தொலைமீட்டர் சேமிப்பை நீங்கள் திவாலாக்குவதை இல்லாமல் விரைவாக மேற்பரப்பு அல்லது அழைப்பு இல் சத்தத்தை புதைக்கிறது.