Начните , а не снизу вверх с инфраструктуры. Самый надежный парк хостов бесполезен, если запросы не удаются, поэтому начните с ориентированных на пользователя — , , — затем добавьте четыре золотых сигнала, а инфра-метрики в последнюю очередь.
Начните , а не снизу вверх с инфраструктуры. Самый надежный парк хостов бесполезен, если запросы не удаются, поэтому начните с ориентированных на пользователя — , , — затем добавьте четыре золотых сигнала, а инфра-метрики в последнюю очередь.
1. USER-FACING SLIs → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS → latency, traffic, errors, saturation per service
3. INFRA METRICS → CPU, memory, disk, network (causes, not symptoms)
Если вы только смотрите на CPU и диск (снизу вверх), вы можете быть полностью зелеными, а пользователи получают 500-е. Мониторинг SLI в первую очередь (сверху вниз) означает, что вы предупреждаете о симптомах, которые пользователи действительно ощущают, а затем углубляетесь в золотые сигналы и инфра, чтобы найти причину.
INSTRUMENT app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
↓
COLLECT a TSDB scrapes/ingests them (Prometheus, Datadog agent)
↓
DASHBOARD visualize SLIs + golden signals (Grafana) for humans to read
↓
ALERT fire on SLO violations / burn rate, routed to on-call
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
Определите SLO для каждого SLI (например, доступность 99,9%, p99 < 300 мс), выведите их на панель управления и отправьте оповещение, когда SLO находится в опасности — не при каждом колебании.
Мониторинг, построенный снизу вверх, говорит вам, что диск заполнен на 80%, но не то, что клиенты не могут завершить покупку. Начало с ориентированных на пользователя SLI привязывает каждую панель управления и оповещение к реальному воздействию на пользователя, снижает шум и обеспечивает четкий путь буления (симптом → золотой сигнал → причина инфра) при возникновении проблемы.