શરૂ કરો, ઈન્ફ્રાસ્ટ્રક્ચરથી નીચે તરફ નહીં। સૌથી વિશ્વસનીય હોસ્ટ ફ્લીટ બેકાર છે જો વિનંતીઓ નિષ્ફળ હોય છે, તેથી વપરાશકર્તા-સામસામે — , , — સાથે શરૂ કરો, પછી ચાર સોનાની સિગ્નલો ઉમેરો, પછી ઈન્ફ્રા મેટ્રિક્સ છેલ્લે.આવો મહત્તમ માટે મોનિટરિંગ અભ્યાસ.
શરૂ કરો, ઈન્ફ્રાસ્ટ્રક્ચરથી નીચે તરફ નહીં। સૌથી વિશ્વસનીય હોસ્ટ ફ્લીટ બેકાર છે જો વિનંતીઓ નિષ્ફળ હોય છે, તેથી વપરાશકર્તા-સામસામે — , , — સાથે શરૂ કરો, પછી ચાર સોનાની સિગ્નલો ઉમેરો, પછી ઈન્ફ્રા મેટ્રિક્સ છેલ્લે.આવો મહત્તમ માટે મોનિટરિંગ અભ્યાસ.
1. USER-FACING SLIs → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS → latency, traffic, errors, saturation per service
3. INFRA METRICS → CPU, memory, disk, network (causes, not symptoms)
જો તમે માત્ર CPU અને ડિસ્ક (નીચે તરફ) જુઓ છો, તમે સંપૂર્ણ લીલા હોઈ શકો છો જ્યારે વપરાશકર્તાઓને 500s મળે છે. પ્રથમ SLIs જોવું (ઉપર તરફ) એ છે કે તમે લક્ષણો જે વપરાશકર્તાઓ ખરેખર અનુભવે છે તેના પર સતર્ક થાઓ, પછી કારણ શોધવા માટે સોનાની સિગ્નલો અને ઈન્ફ્રામાં ડ્રિલ ડાઉન કરો.
INSTRUMENT app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
↓
COLLECT a TSDB scrapes/ingests them (Prometheus, Datadog agent)
↓
DASHBOARD visualize SLIs + golden signals (Grafana) for humans to read
↓
ALERT fire on SLO violations / burn rate, routed to on-call
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
પ્રત્યેક SLI પર SLO વ્યાખ્યાયિત કરો (દા.ત. 99.9% ઉપલબ્ધતા, p99 < 300ms), તેમને ડૅશબોર્ડ કરો, અને જ્યારે SLO જોખમમાં હોય ત્યારે સતર્ક થાઓ — દરેક ધટકો પર નહીં.
નીચે તરફ બનાવેલ મોનિટરિંગ તમને કહે છે કે ડિસ્ક 80% પૂર્ણ છે પણ ગ્રાહકો ચેકઆઉટ કરી શકતા નથી તે નહીં. વપરાશકર્તા-સામસામે SLIs થી શરૂ કરવું દરેક ડૅશબોર્ડ અને સતર્કતાને વાસ્તવિક વપરાશકર્તા અસર સાથે જોડે છે, ગોળ નીચું રાખે છે, અને સ્પષ્ટ ડ્રિલ-ડાઉન પાથ આપે છે (લક્ષણ → સોનાની સિગ્નલ → ઈન્ફ્રા કારણ) જ્યારે કંઈક તોડાય છે.