Apakah itu token dan context window dalam LLM?

Question

Accepted Answer

**Token** adalah unit di mana LLM memproses teks (kepingan perkataan), dan **context window** ialah jumlah maksimum teks (token) yang boleh dipertimbangkan oleh LLM pada satu masa. Memahaminya adalah penting untuk menggunakan LLM dengan berkesan, mengurus kos, dan mengendalikan hadnya.

## Apakah itu token

```text
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
  → text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
  → e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
  → the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
```

## Context window

```text
CONTEXT WINDOW → the maximum number of TOKENS an LLM can process at once (input + output):
  → everything the model 'sees' (your prompt + conversation + retrieved context) must FIT
  → ranges from thousands to millions of tokens (varies by model)
  → BEYOND the limit → the model can't consider it (truncated/doesn't fit)
→ a hard limit on how much context the model can work with at once
```

## Mengapa ini penting secara praktikal

```text
✓ COST → APIs charge PER TOKEN (input + output) → token count = cost → optimize prompts,
  manage conversation length
✓ CONTEXT LIMIT → long documents/conversations may EXCEED the window → strategies:
  summarize, chunk, use RAG (retrieve relevant parts vs sending everything)
✓ Long context → can be slower and costlier; 'lost in the middle' (models may attend less
  to middle content)
✓ design prompts/apps within token limits → key for LLM application design
```

## Mengapa ia penting

Memahami token dan context window adalah pengetahuan peringkat senior yang bernilai kerana ia **asas kepada cara LLM berfungsi dan kepada pengurusan aplikasi LLM** (kos, had), jadi memahaminya adalah pengetahuan AI praktikal yang penting.

Token (unit di mana LLM memproses teks) dan context window (jumlah maksimum teks yang boleh dipertimbangkan oleh LLM pada satu masa) adalah konsep teras untuk menggunakan LLM dengan berkesan.

Memahami **apakah itu token** — unit yang diproses oleh LLM (kepingan perkataan, kira-kira 4 aksara setiap satu, dengan model memproses dan menjana token demi token) — menjelaskan bagaimana LLM sebenarnya mengendalikan teks (dalam token, bukan perkataan).

Memahami **context window** — jumlah maksimum token yang boleh diproses oleh LLM pada satu masa (input tambah output), di mana semua yang dilihat model (prompt, perbualan, konteks yang diperoleh) mesti muat, dengan had keras di mana melebihinya kandungan tidak dapat dipertimbangkan — menjelaskan kekangan penting pada penggunaan LLM.

Memahami **mengapa ini penting secara praktikal** adalah nilai utama: **kos** (API mengenakan bayaran setiap token, jadi kiraan token sama dengan kos, memerlukan pengoptimuman prompt dan pengurusan perbualan), **had konteks** (dokumen atau perbualan panjang yang melebihi window, memerlukan strategi seperti peringkasan, chunking, atau RAG untuk mengambil bahagian yang relevan dan bukan menghantar segala-galanya), dan bahawa konteks panjang boleh lebih perlahan dan lebih mahal (dengan fenomena lost-in-the-middle di mana model kurang memberi perhatian kepada kandungan tengah).

Implikasi praktikal ini — mereka bentuk prompt dan aplikasi dalam had token, mengurus kos, dan mengendalikan kekangan konteks melalui RAG — adalah penting untuk membina aplikasi LLM dengan berkesan dan kos-cekap.

Memahami token dan context window adalah asas kepada reka bentuk aplikasi LLM (pengurusan kos, pengendalian konteks, bekerja dalam had).

Memandangkan token dan context window adalah asas kepada cara LLM berfungsi dan kepada pengurusan aplikasi LLM (kos setiap token, had konteks yang memerlukan strategi seperti RAG) dan memahaminya penting untuk menggunakan LLM dengan berkesan dan membina aplikasi yang kos-cekap, memahami token dan context window adalah pengetahuan AI peringkat senior yang bernilai dan penting secara praktikal — asas kepada cara LLM memproses teks (token) dan hadnya (context window), penting untuk mengurus kos aplikasi LLM (harga setiap token) dan mengendalikan kekangan konteks (melalui RAG, chunking), dan pengetahuan praktikal utama untuk mereka bentuk aplikasi LLM yang berkesan dan kos-cekap.