Как только агент может действовать — удалять файлы, запускать команды shell, вызывать внешние API, тратить деньги — его ошибки (или вредоносный prompt) становятся реальными последствиями. Защита — это минимальные привилегии плюс шлюзы одобрения плюс изоляция: дайте ему только то, что ему нужно, требуйте подтверждение для всего необратимого и запускайте его в месте, где оно не может нанести постоянный ущерб.
