Što su tokeni i kontekstni prozori u LLM-ovima?

Question

Accepted Answer

**Tokeni** su jedinice u kojima LLM-ovi obrađuju tekst (dijelovi riječi), a **kontekstni prozor** je maksimalna količina teksta (tokena) koju LLM može razmotriti odjednom. Razumijevanje je važno za učinkovitu upotrebu LLM-ova, upravljanje troškovima i rukovanje njihovim ograničenjima.

## Što su tokeni

```text
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
  → text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
  → e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
  → the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
```

## Kontekstni prozor

```text
CONTEXT WINDOW → the maximum number of TOKENS an LLM can process at once (input + output):
  → everything the model 'sees' (your prompt + conversation + retrieved context) must FIT
  → ranges from thousands to millions of tokens (varies by model)
  → BEYOND the limit → the model can't consider it (truncated/doesn't fit)
→ a hard limit on how much context the model can work with at once
```

## Zašto je to praktično važno

```text
✓ COST → APIs charge PER TOKEN (input + output) → token count = cost → optimize prompts,
  manage conversation length
✓ CONTEXT LIMIT → long documents/conversations may EXCEED the window → strategies:
  summarize, chunk, use RAG (retrieve relevant parts vs sending everything)
✓ Long context → can be slower and costlier; 'lost in the middle' (models may attend less
  to middle content)
✓ design prompts/apps within token limits → key for LLM application design
```

## Zašto je to važno

Razumijevanje tokena i kontekstnih prozora je vrijedna znanja na razini seniora jer su **fundamentalni za način na koji LLM-ovi rade i za upravljanje LLM aplikacijama** (troškovi, ograničenja), tako da je razumijevanje važno praktično AI znanje.

Tokeni (jedinice u kojima LLM-ovi obrađuju tekst) i kontekstni prozori (maksimalan tekst koji LLM može razmotriti odjednom) su osnovni koncepti za učinkovitu upotrebu LLM-ova.

Razumijevanje **što su tokeni** — jedinice koje LLM-ovi obrađuju (dijelovi riječi, približno 4 znaka svaki, s modelom koji obrađuje i generira token po token) — pojašnjava kako LLM-ovi zapravo obrađuju tekst (u tokenima, ne u riječima).

Razumijevanje **kontekstnog prozora** — maksimalnog broja tokena koje LLM može obraditi odjednom (ulaz plus izlaz), gdje sve što model vidi (upit, razgovor, preuzeti kontekst) mora stati, s tvrdom granicom izvan koje sadržaj ne može biti razmatran — pojašnjava važno ograničenje u upotrebi LLM-a.

Razumijevanje **zašto je to praktično važno** je ključna vrijednost: **troškovi** (API-ji naplaćuju po tokenu, tako da brojanje tokena jednaka je trošku, što zahtijeva optimizaciju upita i upravljanje razgovorom), **kontekstna ograničenja** (dugi dokumenti ili razgovori koji prelaze prozor, što zahtijeva strategije kao što su sažimanje, dijeljenje ili RAG za preuzimanje relevantnih dijelova umjesto slanja svega), i da dugi kontekst može biti sporiji i skuplji (s fenomenom gubitka u sredini gdje modeli manje pažnje posvećuju sadržaju u sredini).

Ove praktične implikacije — dizajn upita i aplikacija unutar ograničenja tokena, upravljanje troškovima i rukovanje kontekstnim ograničenjem putem RAG-a — nisu bitne za učinkovito i isplativo izgradnju LLM aplikacija.

Razumijevanje tokena i kontekstnih prozora je fundamentalno za dizajn LLM aplikacija (upravljanje troškovima, rukovanje kontekstom, rad unutar ograničenja).

Budući da su tokeni i kontekstni prozori fundamentalni za način na koji LLM-ovi rade i za upravljanje LLM aplikacijama (trošak po tokenu, kontekstna ograničenja koja zahtijevaju strategije kao što su RAG) i razumijevanje je važno za učinkovitu upotrebu LLM-ova i izgradnju isplativih aplikacija, razumijevanje tokena i kontekstnih prozora je vrijedna, praktično važna znanja na razini seniora — fundamentalno za način na koji LLM-ovi obrađuju tekst (tokeni) i njihova ograničenja (kontekstni prozor), važno za upravljanje troškom LLM aplikacije (naplata po tokenu) i rukovanje kontekstnim ograničenjem (putem RAG-a, dijeljenja), i ključno praktično znanje za dizajn učinkovitih, isplativih LLM aplikacija.