목표는 page 전에 문제를 잡는 것입니다 — 흡수할 여유가 남아 있을 때 성능 저하를 찾아내는 것이죠. 이는 **선행 지표(leading indicators)**를 지켜보고, error budget이 있는 SLO를 정의하며, 시스템이 실패하기를 기다리는 대신 능동적으로 탐침하는 것을 뜻합니다.
SLO와 error budget
는 reliability를 숫자로 만듭니다(예: 요청의 99.9% 성공). 남은 0.1%가 당신의 입니다. 를 추적하면 budget을 너무 빨리 쓰고 있을 때 alert할 수 있습니다 — 실제로 SLO를 위반하고 사용자가 알아차리기 훨씬 전에요.
