Tokens zijn de eenheden waarin LLMs tekst verwerken (stukken woorden), en het context window is de maximale hoeveelheid tekst (tokens) die een LLM tegelijk kan beschouwen. Het is belangrijk om deze begrippen te begrijpen voor effectief gebruik van LLMs, kostenbeheer en het omgaan met hun beperkingen.
Wat tokens zijn
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
→ text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
→ e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
→ the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
