인프라에서 출발하는 bottom-up이 아니라 사용자가 체감하는 것에서 시작하는 top-down으로 시작하세요. 요청이 실패하고 있다면 아무리 안정적인 호스트 군집도 쓸모없으므로, 먼저 사용자 대면 SLI — latency, error rate, availability — 부터 시작하고, 그다음 네 가지 golden signal, 마지막으로 인프라 metric을 추가합니다.
사용자에서 안쪽으로의 계층화
text
1. 사용자 대면 SLI → 사용자가 경험하는 것 (latency, errors, availability)
2. GOLDEN SIGNALS → service별 latency, traffic, errors, saturation
3. 인프라 METRIC → CPU, memory, disk, network (증상이 아니라 원인)
CPU와 disk만 본다면(bottom-up) 사용자가 500을 받는 와중에도 전부 초록색일 수 있습니다. SLI를 먼저 보는 것(top-down)은 에 alert를 걸고, 그다음 golden signal과 인프라로 파고들어 원인을 찾는다는 뜻입니다.
