Jaká jsou rizika poskytnutí agentovi AI oprávnění jednat a jak jej bezpečně omezit?

Question

Accepted Answer

Jakmile agent **může jednat** — mazat soubory, spouštět příkazy shell, volat externí API, utrácet peníze — jeho chyby (nebo škodlivý prompt) se stanou důsledky v reálném světě. Obrana spočívá v **minimálních oprávněních plus schvalovacích branách plus izolaci**: dejte mu pouze to, co potřebuje, vyžadujte potvrzení pro cokoli nezvratného a spusťte ho tam, kde nemůže způsobit trvalé škody.

## Rizika

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

Injekce promptu je nejostřeší hrana: obsah, který agent *čte*, může obsahovat pokyny, takže jakýkoli nástroj, který agent může volat, je dosažitelný útočníkem, který obsah ovládá.

## Ochranné mantinely

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

Vzor je postupná důvěra: **čtení** je zdarma, **vratné zápisy** jsou levné, **nezvratné nebo externí** akce vyžadují potvrzení a **peníze nebo produkce** vyžaduje izolaci plus člověka v cyklu.

## Proč to důležité

Hodnota agentů vychází z toho, že jim umožníte jednat, ale akce je přesně tam, kde sebevědomá chyba nebo unesený prompt se změní na smazaná data, uniklý klíč nebo skutečný poplatek. Navrhování oprávnění jako allowlist s minimálními oprávněními, ochrana nezvratných akcí za lidským schválením, spuštění v izolovaných prostředích s protokoly auditu a udržování tajemství a síťového egress přísně v rozsahu vám umožňuje získat výhodu autonomie bez sázení na to, že model bude pokaždé správný.