AI 에이전트에게 행동 권한을 주는 것의 위험은 무엇이며, 어떻게 안전하게 제한하나요?

Question

Accepted Answer

에이전트가 **행동**할 수 있게 되면 — 파일 삭제, 셸 명령 실행, 외부 API 호출, 비용 지출 — 그 실수(또는 악성 프롬프트)는 현실의 결과가 됩니다. 방어는 **최소 권한 + 승인 게이트 + 격리**입니다. 필요한 것만 주고, 되돌릴 수 없는 모든 것에 확인을 요구하며, 지속적인 해를 끼칠 수 없는 곳에서 실행하는 것입니다.

## 위험

```text
- DESTRUCTIVE actions  → rm -rf, DROP TABLE, force-push → 되돌릴 수 없는 데이터 손실
- ARBITRARY shell      → 무엇이든 실행 → 권한 상승, 데이터 유출
- EXTERNAL APIs/$$     → 이메일 전송, 주문, 클라우드/LLM 토큰 비용 지출
- SECRET exposure      → API 키 / .env / 토큰을 로그나 외부 호출로 유출
- PROMPT INJECTION     → 신뢰할 수 없는 입력(웹 페이지, 이슈)이 에이전트를 탈취
```

프롬프트 인젝션이 가장 날카로운 부분입니다. 에이전트가 *읽는* 콘텐츠에 명령이 담길 수 있으므로, 에이전트가 호출할 수 있는 모든 tool은 그 콘텐츠를 통제하는 공격자의 손이 닿는 범위에 있습니다.

## 가드레일

```text
- LEAST PRIVILEGE / ALLOWLIST → 사전 승인된 명령 & 경로만; 기본은 거부
- APPROVAL FOR DESTRUCTIVE    → 삭제, 결제, prod 쓰기는 사람이 확인
- SANDBOX / DRY-RUN           → 행동을 미리보기; 격리 컨테이너, prod 자격증명 없음
- ISOLATED ENVIRONMENT        → 임시 VM/branch; 피해 반경 = 버리는 박스
- AUDIT LOGS                  → 모든 tool 호출 + 인자를 검토용으로 기록
- NO SECRETS IN CONTEXT       → 런타임에 env로 주입; 키를 프롬프트에 붙이지 않음
- NETWORK LIMITS              → egress allowlist; 임의의 외부 요청 차단
```

```yaml
# 개념적 권한 정책
tools:
  read_file:   { allow: true }                 # 안전하고 되돌릴 수 있음
  run_shell:   { allow: ["npm test", "git status"] }  # allowlist만
  delete_file: { allow: "ask" }                # 사람 승인 필요
  send_email:  { allow: "ask", sandbox: true } # 먼저 dry-run, 그다음 확인
network:
  egress: ["api.github.com"]                    # 그 외 모두 차단
```

패턴은 단계적 신뢰입니다. **읽기**는 무료, **되돌릴 수 있는 쓰기**는 저렴, **되돌릴 수 없거나 외부** 행동은 확인을 요구하고, **비용이나 프로덕션**은 격리와 루프 안의 사람을 요구합니다.

## 왜 중요한가

에이전트의 가치는 행동하게 두는 데서 나오지만, 행동이야말로 자신감 넘치는 실수나 탈취된 프롬프트가 삭제된 데이터, 유출된 키, 실제 청구로 바뀌는 지점입니다. 권한을 최소 권한 allowlist로 설계하고, 되돌릴 수 없는 행동을 사람 승인 뒤에 두며, 감사 로그와 함께 샌드박스에서 실행하고, 시크릿과 네트워크 egress를 엄격히 제한하면, 모델이 매번 옳을 것이라는 데 프로덕션을 걸지 않고도 자율성의 레버리지를 얻을 수 있습니다.