Una volta che un agente può agire — cancellare file, eseguire comandi shell, chiamare API esterne, spendere denaro — i suoi errori (o un prompt malevolo) diventano conseguenze nel mondo reale. La difesa è privilegio minimo più gate di approvazione più isolamento: dagli solo ciò di cui ha bisogno, richiedi conferma per qualsiasi azione irreversibile, ed eseguilo dove non può causare danni permanenti.
