Wat zijn de risico's van het geven van machtigingen aan een AI-agent om te handelen, en hoe beperk je dit veilig?

Question

Accepted Answer

Zodra een agent kan **handelen** — bestanden verwijderen, shell-commando's uitvoeren, externe API's aanroepen, geld besteden — worden zijn fouten (of een schadelijk prompt) werkelijke gevolgen. De verdediging is **least privilege plus approval gates plus isolatie**: geef het alleen wat het nodig heeft, vereist bevestiging voor alles wat onomkeerbaar is, en voer het uit waar het geen blijvende schade kan aanrichten.

## Waarom het belangrijk is

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

Prompt injection is de scherpste rand: inhoud die de agent *leest* kan instructies bevatten, dus elk hulpmiddel dat de agent kan aanroepen, is bereikbaar voor een aanvaller die die inhoud controleert.

## Guardrails

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Het patroon is graduated trust: **lezen** is gratis, **omkeerbare schrijfbewerkingen** zijn goedkoop, **onomkeerbare of externe** acties vereisen bevestiging, en **geld of productie** vereist isolatie plus een mens in de lus.

## De waarde van agents komt uit het laten handelen, maar handelen is precies waar een zelfverzekerde fout of een gekaapt prompt leidt tot verwijderde gegevens, een gelekte sleutel of een werkelijke aanklacht. Door machtigingen te ontwerpen als least-privilege allowlists, onomkeerbare acties achter menselijke goedkeuring af te schermen, in sandboxes met auditlogboeken uit te voeren, en geheimen en netwerkuitgang strak ingesteld te houden, kunt u de macht van autonomie benutten zonder productie in op het spel zetten op het model dat elke keer gelijk heeft.