Một khi agent có thể hành động — xóa file, chạy lệnh shell, gọi API ngoài, tiêu tiền — sai lầm của nó (hoặc một prompt độc hại) trở thành hậu quả thực tế. Phòng thủ là quyền tối thiểu cộng cổng phê duyệt cộng cô lập: chỉ cho nó cái nó cần, yêu cầu xác nhận với bất cứ gì không thể hoàn tác, và chạy nó ở nơi không thể gây hại lâu dài.
