તમે શરૂઆતથી એક એપ્લિકેશન માટે મોનિટરિંગ કેવી રીતે ડિઝાઇન કરશો?

Question

Accepted Answer

**ઉપરથી નીચે તરફ જે વસ્તુ વપરાશકર્તાઓને અનુભવ થાય છે તેમાંથી** શરૂ કરો, ઈન્ફ્રાસ્ટ્રક્ચરથી નીચે તરફ નહીં। સૌથી વિશ્વસનીય હોસ્ટ ફ્લીટ બેકાર છે જો વિનંતીઓ નિષ્ફળ હોય છે, તેથી વપરાશકર્તા-સામસામે **SLIs** — **લેટન્સી**, **ભૂલ દર**, **ઉપલબ્ધતા** — સાથે શરૂ કરો, પછી ચાર સોનાની સિગ્નલો ઉમેરો, પછી ઈન્ફ્રા મેટ્રિક્સ છેલ્લે.આવો મહત્તમ માટે મોનિટરિંગ અભ્યાસ.

## વપરાશકર્તા તરફ સ્તરબંધી, અંદર તરફ

```text
1. USER-FACING SLIs   → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS     → latency, traffic, errors, saturation per service
3. INFRA METRICS      → CPU, memory, disk, network (causes, not symptoms)
```

જો તમે માત્ર CPU અને ડિસ્ક (નીચે તરફ) જુઓ છો, તમે સંપૂર્ણ લીલા હોઈ શકો છો જ્યારે વપરાશકર્તાઓને 500s મળે છે. પ્રથમ SLIs જોવું (ઉપર તરફ) એ છે કે તમે **લક્ષણો જે વપરાશકર્તાઓ ખરેખર અનુભવે છે તેના પર** સતર્ક થાઓ, પછી કારણ શોધવા માટે સોનાની સિગ્નલો અને ઈન્ફ્રામાં ડ્રિલ ડાઉન કરો.

## પાઇપલાઇન: કરણીય ત્રણ → એકત્રીત → ડૅશબોર્ડ → સતર્ક

```text
INSTRUMENT  app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
   ↓
COLLECT     a TSDB scrapes/ingests them (Prometheus, Datadog agent)
   ↓
DASHBOARD   visualize SLIs + golden signals (Grafana) for humans to read
   ↓
ALERT       fire on SLO violations / burn rate, routed to on-call
```

## ઠોસ શરૂઆતનો બિંદુ

```promql
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
  / sum(rate(http_requests_total[5m]))

# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
```

પ્રત્યેક SLI પર **SLO** વ્યાખ્યાયિત કરો (દા.ત. 99.9% ઉપલબ્ધતા, p99 < 300ms), તેમને ડૅશબોર્ડ કરો, અને જ્યારે SLO જોખમમાં હોય ત્યારે સતર્ક થાઓ — દરેક ધટકો પર નહીં.

## તે શા માટે મહત્વપૂર્ણ છે

નીચે તરફ બનાવેલ મોનિટરિંગ તમને કહે છે કે ડિસ્ક 80% પૂર્ણ છે પણ ગ્રાહકો ચેકઆઉટ કરી શકતા નથી તે નહીં. વપરાશકર્તા-સામસામે SLIs થી શરૂ કરવું દરેક ડૅશબોર્ડ અને સતર્કતાને વાસ્તવિક વપરાશકર્તા અસર સાથે જોડે છે, ગોળ નીચું રાખે છે, અને સ્પષ્ટ ડ્રિલ-ડાઉન પાથ આપે છે (લક્ષણ → સોનાની સિગ્નલ → ઈન્ફ્રા કારણ) જ્યારે કંઈક તોડાય છે.