تستند الرقابة على ثلاث ركائز — السجلات والمقاييس والتتبعات — والهدف هو الإجابة على "ما المشكلة ولماذا" لنظام كبير جداً بحيث لا يمكن فحصه يدوياً. على نطاق واسع، الاستراتيجية تتعلق بالربط والأخذ بالعينات والتكلفة.
تستند الرقابة على ثلاث ركائز — السجلات والمقاييس والتتبعات — والهدف هو الإجابة على "ما المشكلة ولماذا" لنظام كبير جداً بحيث لا يمكن فحصه يدوياً. على نطاق واسع، الاستراتيجية تتعلق بالربط والأخذ بالعينات والتكلفة.
| Pillar | الإجابات | التدريج |
|---|
| Metrics | هل هناك خطأ ما؟ (المعدلات، الكمون) | Prometheus, Grafana |
| Traces | أين في التدفق؟ | OpenTelemetry, Jaeger |
| Logs | ما الذي حدث بالضبط؟ | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
يجب أن تمر معرّف التتبع/الربط عبر تسميات المقاييس وأسطر السجل والمجالات، حتى تتمكن من الانتقال بينها.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
تسجيل كل شيء بنسبة 100٪ غير مقبول مالياً ويغطي الإشارة. خذ بالعينات، والبنية، والتنبيهات على SLOs بدلاً من ذلك.
مع مئات الخدمات، لا يمكنك SSH والنظر — الرقابة هي الطريقة الوحيدة لفهم سلوك الإنتاج.
الاستراتيجية الرابحة هي مترابطة وممثلة بعينات وموجهة بـ SLO: تحضر المشاكل الحقيقية بسرعة دون إفلاس الراتب على تخزين القياس أو دفن الحراسة في الضوضاء.