Welche Risiken sind mit der Erteilung von Berechtigungen für einen KI-Agent verbunden, und wie begrenzen Sie diese sicher?

Question

Accepted Answer

Sobald ein Agent **handeln** kann — Dateien löschen, Shell-Befehle ausführen, externe APIs aufrufen, Geld ausgeben — werden seine Fehler (oder ein böswilliger Prompt) zu Konsequenzen in der realen Welt. Die Abwehr ist **minimale Berechtigung plus Genehmigungsgates plus Isolation**: Geben Sie ihm nur das, was er braucht, verlangen Sie Bestätigung für alles Irreversible, und führen Sie es dort aus, wo es keinen dauerhaften Schaden anrichten kann.

## Die Risiken

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

Prompt Injection ist die schärfste Kante: Inhalte, die der Agent *liest*, können Anweisungen enthalten, sodass jedes Werkzeug, das der Agent aufrufen kann, von einem Angreifer erreichbar ist, der diesen Inhalt kontrolliert.

## Guardrails

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Das Muster ist abgestuftes Vertrauen: **Lesen** ist kostenlos, **reversible Schreibvorgänge** sind billig, **irreversible oder externe** Aktionen erfordern Bestätigung, und **Geld oder Produktion** erfordert Isolation plus einen Menschen im Regelkreis.

## Warum es wichtig ist

Der Wert von Agenten liegt darin, sie handeln zu lassen, aber das Handeln ist genau dort, wo ein selbstbewusster Fehler oder ein entführter Prompt in gelöschte Daten, einen durchgesickerten Schlüssel oder eine echte Belastung führt. Durch die Gestaltung von Berechtigungen als Allowlists mit minimalen Berechtigungen, das Gating irreversibler Aktionen hinter menschlicher Genehmigung, die Ausführung in Sandboxes mit Audit-Protokollen und das enge Scoping von Geheimnissen und Netzwerk-Egress können Sie die Vorteile der Autonomie nutzen, ohne die Produktion darauf zu wetten, dass das Modell jedes Mal richtig liegt.