الهدف هو اكتشاف المشاكل قبل انهيار الصفحة — للعثور على التدهور بينما لا تزال هناك مساحة لامتصاصها. هذا يعني مراقبة المؤشرات الرائدة، وتحديد SLOs مع ميزانيات الأخطاء، والتحقق النشط من النظام بدلاً من انتظار فشله.
SLOs وميزانيات الأخطاء
SLO يحول الموثوقية إلى رقم (على سبيل المثال، 99.9% من الطلبات تنجح). الـ 0.1% المتبقية هي ميزانية أخطائك. تتبع معدل الحرق يسمح لك بتنبيه عندما تنفق الميزانية بسرعة كبيرة — قبل وقت طويل من انتهاك SLO الفعلي وملاحظة المستخدمين.
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
التحقق النشط، وليس المقاييس السلبية فقط
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
مراقبة المحاكاة قوية لأنها لا تنتظر المستخدم — بل تمارس النظام بشكل مستمر، لذا يتم اكتشاف عملية الدفع المعطلة الساعة 3 صباحاً، وليس عندما يشتكي الناس في صباح الذروة.
المؤشرات الرائدة والاتجاهات
أول العلامات تظهر في الموارد، وليس في الأخطاء التي تواجه المستخدم بعد. تنبيه على الاتجاه، وليس على خط ثابت فقط.
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
ارتفاع p99 بطيء أو طابور متزايد هو إنذار تحذيري: من خلال التصرف بناءً على الزحف، تمنع الانقطاع الذي كان الزحف يتجه نحوه.
لماذا هذا مهم
مراقبة الاستجابة تعني أن المستخدمين هم نظام التنبيه الخاص بك — عندما يشتكون، يكون الحادث قد بدأ بالفعل وتم إنفاق ميزانية أخطائك. الكشف الاستباقي (معدل حرق SLO، والاختبارات الاصطناعية، والفحوصات الصحية، وRUM، والمؤشرات الرائدة، والتنبيهات الشاذة/الاتجاهية) يشتري وقتاً إضافياً: تصلح طابور مشبع أو زمن استجابة متزايد قبل أن يصبح صفحة في الساعة الثانية صباحاً وعميل غاضب. هذا الوقت الإضافي هو الفرق بين إصلاح هادئ وانقطاع.
