token은 LLM이 텍스트를 처리하는 단위(단어 조각)이고, **컨텍스트 윈도우(context window)**는 LLM이 한 번에 고려할 수 있는 최대 텍스트 양(token)입니다. 이를 이해하는 것은 LLM을 효과적으로 사용하고, 비용을 관리하며, 그 한계를 다루는 데 중요합니다.
token이란
TOKEN → LLM이 텍스트를 처리하는 단위(단어/문자가 아니라 조각):
→ 텍스트가 token으로 분할됨(영어에서 대략 각 ~4글자 또는 ~0.75단어)
→ 예: 'unbelievable'은 3개 token일 수 있음; 흔한 단어는 보통 1개 token
→ model이 token 단위로 처리하고 생성
→ LLM은 token으로 작동(입력과 출력이 token으로 측정됨)
컨텍스트 윈도우
컨텍스트 윈도우 → LLM이 한 번에 처리할 수 있는 최대 token 수(입력 + 출력):
→ model이 '보는' 모든 것(당신의 prompt + 대화 + 검색된 문맥)이 FIT해야 함
→ 수천에서 수백만 token까지(model에 따라 다름)
→ 한계를 넘으면 → model이 고려할 수 없음(잘리거나 들어가지 못함)
→ model이 한 번에 작업할 수 있는 문맥 양의 하드 한계
