Quais são os riscos de dar permissão a um agente de IA para agir e como você o limita com segurança?

Question

Accepted Answer

Uma vez que um agente pode **agir** — deletar arquivos, executar comandos de shell, chamar APIs externas, gastar dinheiro — seus erros (ou um prompt malicioso) se tornam consequências no mundo real. A defesa é **privilégio mínimo mais portais de aprovação mais isolamento**: dê-lhe apenas o que precisa, exija confirmação para qualquer coisa irreversível e execute-o onde não pode causar dano permanente.

## Por que isso importa

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → irreversible data loss
- ARBITRARY shell      → run anything → privilege escalation, exfiltration
- EXTERNAL APIs/$$     → send emails, place orders, spend on cloud/LLM tokens
- SECRET exposure      → leak API keys / .env / tokens into logs or outbound calls
- PROMPT INJECTION     → untrusted input (a web page, an issue) hijacks the agent
```

A injeção de prompt é a aresta mais afiada: o conteúdo que o agente *lê* pode conter instruções, então qualquer ferramenta que o agente pode chamar é acessível por um invasor que controla esse conteúdo.

## Proteções

```text
- LEAST PRIVILEGE / ALLOWLIST → only pre-approved commands & paths; deny by default
- APPROVAL FOR DESTRUCTIVE    → human confirms deletes, payments, prod writes
- SANDBOX / DRY-RUN           → preview the action; isolated container, no prod creds
- ISOLATED ENVIRONMENT        → ephemeral VM/branch; blast radius = throwaway box
- AUDIT LOGS                  → record every tool call + args for review
- NO SECRETS IN CONTEXT       → inject via env at runtime; never paste keys into prompts
- NETWORK LIMITS              → egress allowlist; block arbitrary outbound requests
```

```yaml
# Conceptual permission policy
tools:
  read_file:   { allow: true }                 # safe, reversible
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist only
  delete_file: { allow: "ask" }                # human approval required
  send_email:  { allow: "ask", sandbox: true } # dry-run first, then confirm
network:
  egress: ["api.github.com"]                    # everything else blocked
```

O padrão é confiança graduada: **leitura** é grátis, **escritas reversíveis** são baratas, **ações irreversíveis ou externas** exigem confirmação, e **dinheiro ou produção** exige isolamento mais uma pessoa no circuito.

O valor dos agentes vem de deixá-los agir, mas a ação é exatamente onde um erro confiante ou um prompt sequestrado se torna dados deletados, uma chave vazada ou uma cobrança real. Projetando permissões como listas de permissões de privilégio mínimo, controlando ações irreversíveis atrás da aprovação humana, executando em sandboxes com logs de auditoria e mantendo segredos e saída de rede rigidamente limitados, você pode obter a alavancagem da autonomia sem apostar a produção em o modelo estar certo o tempo todo.