Sobald ein Agent handeln kann — Dateien löschen, Shell-Befehle ausführen, externe APIs aufrufen, Geld ausgeben — werden seine Fehler (oder ein böswilliger Prompt) zu Konsequenzen in der realen Welt. Die Abwehr ist minimale Berechtigung plus Genehmigungsgates plus Isolation: Geben Sie ihm nur das, was er braucht, verlangen Sie Bestätigung für alles Irreversible, und führen Sie es dort aus, wo es keinen dauerhaften Schaden anrichten kann.
