लक्ष्य पृष्ठ खराब हुनु अघि समस्याहरू समात्नु हो — अवनति खोज्नु हो जबकि यो अवशोषित गर्न स्ल्याक अझै पनि छ। यसको अर्थ अग्रणी संकेतकहरू हेर्नु, त्रुटि बजेट सहित SLOs परिभाषित गर्नु, र प्रणाली विफल हुनको लागी बाट खोज्नु हो।
लक्ष्य पृष्ठ खराब हुनु अघि समस्याहरू समात्नु हो — अवनति खोज्नु हो जबकि यो अवशोषित गर्न स्ल्याक अझै पनि छ। यसको अर्थ अग्रणी संकेतकहरू हेर्नु, त्रुटि बजेट सहित SLOs परिभाषित गर्नु, र प्रणाली विफल हुनको लागी बाट खोज्नु हो।
एक SLO विश्वसनीयतालाई संख्यामा परिणत गर्छ (उदाहरण: अनुरोधहरूको 99.9% सफल हुन्छ)। बाँकी 0.1% तपाईको त्रुटि बजेट हो। burn rate ट्र्याक गर्नुले तपाईलाई सतर्क गर्न दिन्छ जब तपाई बजेट बहुत छिटो खर्च गरिरहनुभएको हुन्छ — तपाईले वास्तवमा SLO को उल्लंघन गरेको र प्रयोगकर्ताहरूले बुझेको बहुत अगाडि।
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
सिन्थेटिक निरीक्षण शक्तिशाली छ किनभने यो प्रयोगकर्ताको लागी प्रतीक्षा गर्दैन — यो निरन्तर प्रणाली को व्यायाम गर्छ, यसको कारण एक टुट्टा चेकआउट 3 बजे फेला पर्छ, जब बिहान को भीड गुनासो गर्दैन।
सबै भन्दा प्रारम्भिक संकेतहरू संसाधनहरूमा छन्, अझै तक प्रयोगकर्ता-सम्मुख त्रुटिहरूमा छैन। प्रवृत्ति मा सतर्क गर्नुहोस्, सिर्फ एक स्थिर लाइनमा होइन।
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
बिस्तारै बढ्दै गरेको p99 वा बढ्दै गरेको पंक्ति एक चेतावनी शट हो: क्रीपलाई कार्य गरेर, तपाई आउट हरू को रोक्नुहुन्छ जो क्रीप तर्फ जाँदै थियो।
प्रतिक्रियाशील निरीक्षण मतलब प्रयोगकर्ताहरू तपाईको सतर्कता प्रणाली हुन् — जब तिनीहरूले गुनासो गर्छन्, घटना पहिलेदेखि नै लाइभ छ र तपाईको त्रुटि बजेट खर्च भएको छ। सक्रिय पत्ता लगाउन (SLO burn rate, synthetics, health checks, RUM, अग्रणी संकेतक, trend/anomaly alerts) नेतृत्व समय खरीद गर्छ: तपाई एक संतृप्त पंक्ति वा क्रीपिङ्ग विलम्बता सुधार्नुहुन्छ यो 2 बजे पृष्ठ र एक क्रोधी ग्राहक हुनु अघि। यो नेतृत्व समय एक शान्त मरम्मत र एक आउट बीच भिन्नता हो।