Quels sont les risques de donner à un agent IA la permission d'agir, et comment les limiter de façon sûre?

Question

Accepted Answer

Une fois qu'un agent peut **agir** — supprimer des fichiers, exécuter des commandes shell, appeler des API externes, dépenser de l'argent — ses erreurs (ou une invite malveillante) deviennent des conséquences dans le monde réel. La défense est **le privilège minimal plus des portes d'approbation plus l'isolation** : lui donner uniquement ce dont il a besoin, exiger une confirmation pour tout ce qui est irréversible, et l'exécuter là où il ne peut pas causer de dégâts durables.

## Les risques

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

L'injection d'invite est le risque le plus aigu : le contenu que l'agent *lit* peut contenir des instructions, donc tout outil que l'agent peut appeler est accessible à un attaquant qui contrôle ce contenu.

## Garde-fous

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Le modèle est une confiance graduée : la **lecture** est gratuite, les **écritures réversibles** sont bon marché, les actions **irréversibles ou externes** exigent une confirmation, et l'**argent ou la production** exigent l'isolation plus un humain dans la boucle.

## Pourquoi c'est important

La valeur des agents vient du fait de les laisser agir, mais l'action est exactement là où une erreur confiante ou une invite détournée se transforme en données supprimées, une clé divulguée, ou un vrai débit. Concevoir les permissions comme des listes blanches de privilège minimal, placer les actions irréversibles derrière une approbation humaine, exécuter dans des bacs à sable avec des journaux d'audit, et garder les secrets et la sortie réseau étroitement limités vous permet d'obtenir l'effet de levier de l'autonomie sans parier la production sur le fait que le modèle ait raison à chaque fois.