Aloita , älä alhaalta ylös infrastruktuurista. Luotettavin host-lauma on arvoton, jos pyynnöt epäonnistuvat, joten aloita käyttäjälähtöisistä :stä — , , — lisää sitten neljä kultaista signaalia ja viimeisenä infrastruktuurin mittareita.
Aloita , älä alhaalta ylös infrastruktuurista. Luotettavin host-lauma on arvoton, jos pyynnöt epäonnistuvat, joten aloita käyttäjälähtöisistä :stä — , , — lisää sitten neljä kultaista signaalia ja viimeisenä infrastruktuurin mittareita.
1. USER-FACING SLIs → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS → latency, traffic, errors, saturation per service
3. INFRA METRICS → CPU, memory, disk, network (causes, not symptoms)
Jos vain valvot CPU:ta ja levyä (alhaalta ylös), voit olla täysin vihreä, kun käyttäjät saavat 500s. SLI:iden valvonta ensin (ylhäältä alas) tarkoittaa, että hälytät oireista, joita käyttäjät todella kokevat, ja sitten poraudut kultaisiin signaaleihin ja infrastruktuuriin löytääksesi syyn.
INSTRUMENT app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
↓
COLLECT a TSDB scrapes/ingests them (Prometheus, Datadog agent)
↓
DASHBOARD visualize SLIs + golden signals (Grafana) for humans to read
↓
ALERT fire on SLO violations / burn rate, routed to on-call
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
Märitä SLO jokaiselle SLI:lle (esim. 99,9 % saatavuus, p99 < 300ms), näytä ne kojelauta-näkymässä ja hälytä, kun SLO on vaarassa — ei jokaisen vaihtelun yhteydessä.
Alhaalta ylös rakennettu valvonta kertoo, että levy on 80% täynnä, mutta ei, että asiakkaat eivät voi tehdä ostoksia. Käyttäjälähtöisistä SLI:stä aloittaminen sitoo jokaisen kojelauta-näkymän ja hälytyksen todelliseen käyttäjävaikutukseen, pitää melun alhaisena ja tarjoaa selkeän porautumispolun (oire → kultainen signaali → infrastruktuurin syy), kun jotain rikkoutuu.