AIエージェントに行動する権限を与えることのリスクは何ですか。また、それを安全に制限するにはどうすればよいですか。

Question

Accepted Answer

ひとたびエージェントが**行動**できるようになると——ファイルを削除し、シェルコマンドを実行し、外部APIを呼び出し、お金を使う——その間違い（あるいは悪意あるプロンプト）は現実世界の結果となります。防御策は**最小権限＋承認ゲート＋隔離**です。必要なものだけを与え、取り返しのつかない操作には確認を要求し、永続的な被害を及ぼせない場所で実行します。

## リスク

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

プロンプトインジェクションは最も鋭い刃です。エージェントが*読み取る*コンテンツには命令が含まれ得るため、エージェントが呼び出せるあらゆるツールは、そのコンテンツを支配する攻撃者の手の届く範囲に入ります。

## ガードレール

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

このパターンは段階的な信頼です。**読み取り**は無償、**取り消し可能な書き込み**は安価、**取り返しのつかない、または外部の**操作には確認を要し、**お金や本番環境**には隔離と人間の関与（human in the loop）を要します。

## なぜ重要なのか

エージェントの価値はそれらに行動させることから生まれますが、行動こそが、自信に満ちた間違いや乗っ取られたプロンプトが、削除されたデータ、漏洩した鍵、あるいは現実の課金へと転じる場所です。権限を最小権限のallowlistとして設計し、取り返しのつかない操作を人間の承認の背後でゲートし、監査ログを伴うsandboxで実行し、シークレットとネットワークのegressを厳格にスコープすることで、毎回モデルが正しいことに本番環境を賭けることなく、自律性のレバレッジを得られます。