¿Cuáles son los riesgos de dar a un agente de IA permiso para actuar, y cómo lo limitas de forma segura?

Question

Accepted Answer

Una vez que un agente puede **actuar** — eliminar archivos, ejecutar comandos shell, llamar a API externas, gastar dinero — sus errores (o un prompt malicioso) se convierten en consecuencias en el mundo real. La defensa es **privilegio mínimo más puertas de aprobación más aislamiento**: dale solo lo que necesita, requiere confirmación para cualquier cosa irreversible, y ejecútalo donde no pueda causar daño duradero.

## Los riesgos

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

La inyección de prompt es el borde más afilado: el contenido que el agente *lee* puede contener instrucciones, por lo que cualquier herramienta que el agente pueda llamar es alcanzable por un atacante que controla ese contenido.

## Barandillas

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

El patrón es confianza graduada: **lectura** es gratuita, **escrituras reversibles** son baratas, **acciones irreversibles o externas** demandan confirmación, y **dinero o producción** demanda aislamiento más un humano en el bucle.

## Por qué es importante

El valor de los agentes viene de permitirles actuar, pero la acción es exactamente donde un error confiado o un prompt secuestrado se convierte en datos eliminados, una clave filtrada o un cargo real. Diseñar permisos como listas permitidas de privilegio mínimo, bloquear acciones irreversibles detrás de aprobación humana, ejecutar en sandboxes con registros de auditoría, y mantener secretos y egreso de red estrictamente limitados te permite obtener la ventaja de la autonomía sin apostar la producción a que el modelo tenga razón cada vez.