A regra central: alertar sobre sintomas, não causas, e paginar apenas sobre o que é acionável e urgente. Um alerta ruidoso que dispara toda noite é silenciado ou ignorado — então o risco real não é um alerta faltante, é um on-call dessensibilizado que dorme durante o real.
Sintomas sobre causas
Alerte sobre (taxa de erro, latência, disponibilidade), não sobre causas internas como "CPU > 80%". CPU alta pode ser inofensiva; o que importa é se os usuários são afetados.
