ひとたびエージェントが行動できるようになると——ファイルを削除し、シェルコマンドを実行し、外部APIを呼び出し、お金を使う——その間違い(あるいは悪意あるプロンプト)は現実世界の結果となります。防御策は最小権限+承認ゲート+隔離です。必要なものだけを与え、取り返しのつかない操作には確認を要求し、永続的な被害を及ぼせない場所で実行します。
リスク
text
- DESTRUCTIVE actions → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$ → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION → untrusted input (a web page, an issue) hijacks the agent
