Quali sono i rischi di dare a un agente AI il permesso di agire, e come lo limiti in modo sicuro?

Question

Accepted Answer

Una volta che un agente può **agire** — cancellare file, eseguire comandi shell, chiamare API esterne, spendere denaro — i suoi errori (o un prompt malevolo) diventano conseguenze nel mondo reale. La difesa è **privilegio minimo più gate di approvazione più isolamento**: dagli solo ciò di cui ha bisogno, richiedi conferma per qualsiasi azione irreversibile, ed eseguilo dove non può causare danni permanenti.

## Perché è importante

I rischi

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

L'iniezione di prompt è il bordo più tagliente: il contenuto che l'agente *legge* può contenere istruzioni, quindi qualsiasi tool che l'agente può chiamare è raggiungibile da un attaccante che controlla quel contenuto.

## Guardrail

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Il pattern è fiducia graduata: **lettura** è libera, **scritture reversibili** sono economiche, **azioni irreversibili o esterne** richiedono conferma, e **denaro o produzione** richiedono isolamento più un umano nel ciclo.

## Perché è importante

Il valore degli agenti viene dal permettere loro di agire, ma l'azione è esattamente dove un errore confidente o un prompt dirottato si trasformano in dati cancellati, una chiave esposta, o un addebito reale. Progettare i permessi come allowlist a privilegio minimo, controllare le azioni irreversibili dietro approvazione umana, eseguire in sandbox con log di audit, e mantenere secrets e uscita di rete strettamente definiti ti permette di ottenere il vantaggio dell'autonomia senza mettere in gioco la produzione sul fatto che il modello abbia ragione ogni volta.