에이전트가 행동할 수 있게 되면 — 파일 삭제, 셸 명령 실행, 외부 API 호출, 비용 지출 — 그 실수(또는 악성 프롬프트)는 현실의 결과가 됩니다. 방어는 최소 권한 + 승인 게이트 + 격리입니다. 필요한 것만 주고, 되돌릴 수 없는 모든 것에 확인을 요구하며, 지속적인 해를 끼칠 수 없는 곳에서 실행하는 것입니다.
위험
text
- DESTRUCTIVE actions → rm -rf, DROP TABLE, force-push → 되돌릴 수 없는 데이터 손실
- ARBITRARY shell → 무엇이든 실행 → 권한 상승, 데이터 유출
- EXTERNAL APIs/$$ → 이메일 전송, 주문, 클라우드/LLM 토큰 비용 지출
- SECRET exposure → API 키 / .env / 토큰을 로그나 외부 호출로 유출
- PROMPT INJECTION → 신뢰할 수 없는 입력(웹 페이지, 이슈)이 에이전트를 탈취
