Hvad er tokens og kontekstvinduer i LLM'er?

Question

Accepted Answer

**Tokens** er de enheder, som LLM'er behandler tekst i (stavelsesdele), og **kontekstvinduet** er den maksimale mængde tekst (tokens), som en LLM kan behandle på én gang. Det er vigtigt at forstå dem for at bruge LLM'er effektivt, styre omkostninger og håndtere deres begrænsninger.

## Hvad tokens er

```text
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
  → text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
  → e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
  → the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
```

## Kontekstvinduet

```text
CONTEXT WINDOW → the maximum number of TOKENS an LLM can process at once (input + output):
  → everything the model 'sees' (your prompt + conversation + retrieved context) must FIT
  → ranges from thousands to millions of tokens (varies by model)
  → BEYOND the limit → the model can't consider it (truncated/doesn't fit)
→ a hard limit on how much context the model can work with at once
```

## Hvorfor det betyder noget praktisk

```text
✓ COST → APIs charge PER TOKEN (input + output) → token count = cost → optimize prompts,
  manage conversation length
✓ CONTEXT LIMIT → long documents/conversations may EXCEED the window → strategies:
  summarize, chunk, use RAG (retrieve relevant parts vs sending everything)
✓ Long context → can be slower and costlier; 'lost in the middle' (models may attend less
  to middle content)
✓ design prompts/apps within token limits → key for LLM application design
```

## Hvorfor det betyder noget

At forstå tokens og kontekstvinduer er værdifuld viden på seniorplan, fordi de er **fundamentale for, hvordan LLM'er fungerer, og for at styre LLM-applikationer** (omkostninger, begrænsninger), så det er vigtig praktisk AI-viden.

Tokens (de enheder, som LLM'er behandler tekst i) og kontekstvinduer (den maksimale tekst, som en LLM kan behandle på én gang) er kernekoncepter for at bruge LLM'er effektivt.

At forstå **hvad tokens er** — de enheder, som LLM'er behandler (stavelsesdele, omkring 4 tegn hver, hvor modellen behandler og genererer token for token) — præciserer, hvordan LLM'er rent faktisk håndterer tekst (i tokens, ikke ord).

At forstå **kontekstvinduet** — det maksimale antal tokens, som en LLM kan behandle på én gang (input plus output), hvor alt, som modellen ser (prompt, samtale, hentet kontekst) skal passe ind, med en hård grænse, hvor indhold ikke kan betragtes — præciserer en vigtig begrænsning for LLM-brug.

At forstå **hvorfor det betyder noget praktisk** er nøgleværdien: **omkostninger** (API'er opkræver pr. token, så tokenantal = omkostning, hvilket kræver prompt-optimering og samtalestyring), **kontekstgrænsen** (lange dokumenter eller samtaler, der overstiger vinduet, hvilket kræver strategier som opsummering, opdeling eller RAG for at hente relevante dele i stedet for at sende alt), og at lang kontekst kan være langsommere og dyrere (med fænomenet