Una vez que un agente puede actuar — eliminar archivos, ejecutar comandos shell, llamar a API externas, gastar dinero — sus errores (o un prompt malicioso) se convierten en consecuencias en el mundo real. La defensa es privilegio mínimo más puertas de aprobación más aislamiento: dale solo lo que necesita, requiere confirmación para cualquier cosa irreversible, y ejecútalo donde no pueda causar daño duradero.
