LLM은 왜 환각(hallucination)을 일으키며, 어떻게 줄일 수 있나요?

Question

Accepted Answer

LLM은 자신감 있고 그럴듯하게 들리지만 사실과 다르거나 지어낸 텍스트를 생성할 때 **hallucinate(환각)**합니다. 그 이유를 이해하려면 먼저 모델이 실제로 무엇을 하는지 이해해야 합니다.

## LLM의 작동 방식 (간략히)

높은 수준에서 LLM은 **다음 토큰 예측기**입니다. 지금까지의 텍스트가 주어지면, **훈련 중 학습한 통계적 패턴**을 바탕으로 가장 가능성 높은 다음 토큰(단어/조각)을 예측합니다 — 데이터베이스에서 사실을 조회하는 것이 아닙니다.

```text
input: "The capital of Australia is"
model: P(next token) → "Canberra" 0.71, "Sydney" 0.18, ...
→ 토큰을 샘플링하고 덧붙인 뒤 반복
```

## 환각이 일어나는 이유

- **생성하지, 조회하지 않는다.** 모델은 *그럴듯한* 텍스트를 만들 뿐, *검증된* 사실을 만드는 것이 아닙니다. 유창함과 진실성은 서로 독립적입니다.
- **내장된 진실 검증 장치가 없다.** 모델 내부에는 출력을 현실과 대조하는 것이 없습니다.
- **공백을 자신 있게 메운다.** 훈련 데이터가 빈약하거나 모호하거나 없을 때(드문 API, 최근 사건, 잘 알려지지 않은 인물), 모델은 여전히 통계적으로 가능성 높은 연속을 내놓으며 — 이는 틀릴 수 있습니다.
- **자신감은 정확성이 아니다.** 지어낸 인용은 진짜 인용과 똑같이 유창해 보입니다.

## 줄이는 방법

- **RAG / 출처로 grounding.** 관련 문서를 검색해 프롬프트에 넣어, 모델이 기억이 아니라 실제 텍스트로*부터* 답하게 합니다.
- **citation을 요구**하고 확인하세요 — 지어낸 참조는 환각을 드러냅니다.
- **temperature를 낮추세요** — 사실 기반 작업에서 모델이 확률 높은(더 안전한) 토큰을 고르도록 합니다.
- **"모르겠다"를 허용하세요.** 확신이 없을 때 그렇게 말하도록 명시적으로 지시해, 지어내야 한다는 압박을 없앱니다.
- **도구로 검증하세요.** 모델의 기억에 의존하는 대신 코드를 실행하거나, 계산기/검색/데이터베이스를 조회하거나, API를 호출하세요.
- **범위를 좁히세요.** 구체적이고 경계가 분명한 프롬프트는 개방형 프롬프트보다 환각이 적습니다.

## 왜 중요한가

LLM은 실제 사용자가 신뢰하는 제품에 점점 더 깊이 들어가고 있습니다. 모델이 **사실을 조회하는 것이 아니라 그럴듯한 텍스트를 생성**하기 때문에, 환각은 가끔 발생하는 버그가 아니라 본질적인 동작입니다 — 따라서 엔지니어는 이를 전제로 설계해야 합니다. *왜* 일어나는지(진실 검증 없는 다음 토큰 예측)를 알면 *어떻게* 완화할지가 보입니다: grounding, citation, 낮은 temperature, 기권 허용, 외부 검증. LLM 출력을 신탁이 아니라 검토해야 할 초안으로 다루는 것이 신뢰할 수 있는 기능과 자신감 넘치는 위험 요소를 가르는 차이입니다.