Каковы риски предоставления агенту ИИ разрешения на действие и как вы безопасно его ограничиваете?

Question

Accepted Answer

Как только агент может **действовать** — удалять файлы, запускать команды shell, вызывать внешние API, тратить деньги — его ошибки (или вредоносный prompt) становятся реальными последствиями. Защита — это **минимальные привилегии плюс шлюзы одобрения плюс изоляция**: дайте ему только то, что ему нужно, требуйте подтверждение для всего необратимого и запускайте его в месте, где оно не может нанести постоянный ущерб.

## Почему это важно

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

Injection prompt — это самое острое преимущество: контент, который агент *читает*, может содержать инструкции, поэтому любой инструмент, который агент может вызвать, доступен злоумышленнику, контролирующему этот контент.

## Guardrails

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Паттерн — это постепенное доверие: **чтение** бесплатно, **обратимые записи** дешевы, **необратимые или внешние** действия требуют подтверждения, а **деньги или production** требуют изоляции плюс человека в цикле.

Ценность агентов заключается в том, чтобы позволить им действовать, но действие — это именно то место, где уверенная ошибка или перехваченный prompt превращаются в удаленные данные, утекший ключ или реальный платеж. Проектируя разрешения как списки разрешений с минимальными привилегиями, ограничивая необратимые действия человеческим одобрением, запуская в песочницах с журналами аудита и строго ограничивая секреты и исходящий трафик сети, вы можете получить преимущество автономности без риска production в том, что модель будет права каждый раз.