Token và context window trong LLM là gì?

Question

Accepted Answer

**Token** là đơn vị mà LLM xử lý văn bản (các mảnh của từ), và **context window** là lượng văn bản tối đa (số token) mà LLM có thể xem xét cùng một lúc. Hiểu chúng quan trọng để dùng LLM hiệu quả, quản lý chi phí, và xử lý các giới hạn của chúng.

## Token là gì

```text
TOKEN → đơn vị LLM xử lý văn bản (không phải từ/ký tự, mà là các MẢNH):
  → văn bản được tách thành token (xấp xỉ ~4 ký tự hoặc ~0.75 từ mỗi token tiếng Anh)
  → vd 'unbelievable' có thể là 3 token; từ thông dụng thường là 1 token
  → model xử lý và sinh ra từng token một
→ LLM làm việc theo token (input và output được đo bằng token)
```

## Context window

```text
CONTEXT WINDOW → số TOKEN tối đa mà LLM có thể xử lý cùng lúc (input + output):
  → mọi thứ model 'nhìn thấy' (prompt + hội thoại + context truy xuất) phải VỪA trong đó
  → từ vài nghìn tới hàng triệu token (tuỳ model)
  → VƯỢT giới hạn → model không xem xét được (bị cắt/không vừa)
→ một giới hạn cứng về lượng context model có thể làm việc cùng lúc
```

## Vì sao điều này quan trọng về mặt thực tế

```text
✓ CHI PHÍ → API tính phí THEO TOKEN (input + output) → số token = chi phí → tối ưu prompt,
  quản lý độ dài hội thoại
✓ GIỚI HẠN CONTEXT → tài liệu/hội thoại dài có thể VƯỢT window → chiến lược:
  tóm tắt, chunk, dùng RAG (truy xuất phần liên quan thay vì gửi tất cả)
✓ Context dài → có thể chậm và tốn hơn; 'lost in the middle' (model có thể chú ý ít hơn
  tới nội dung ở giữa)
✓ thiết kế prompt/app trong giới hạn token → then chốt cho thiết kế ứng dụng LLM
```

## Tại sao điều này quan trọng

Hiểu token và context window là kiến thức cấp senior có giá trị vì chúng **cơ bản với cách LLM hoạt động và với việc quản lý ứng dụng LLM** (chi phí, giới hạn), nên là kiến thức AI thực tiễn quan trọng.

Token (đơn vị LLM xử lý văn bản) và context window (lượng văn bản tối đa LLM xem xét được cùng lúc) là khái niệm cốt lõi để dùng LLM hiệu quả.

Hiểu **token là gì** — đơn vị LLM xử lý (mảnh của từ, xấp xỉ 4 ký tự mỗi token, model xử lý và sinh từng token một) — làm rõ cách LLM thực sự xử lý văn bản (theo token, không phải từ).

Hiểu **context window** — số token tối đa LLM xử lý được cùng lúc (input cộng output), nơi mọi thứ model thấy (prompt, hội thoại, context truy xuất) phải vừa, với giới hạn cứng mà vượt qua thì nội dung không được xem xét — làm rõ một ràng buộc quan trọng khi dùng LLM.

Hiểu **vì sao điều này quan trọng về mặt thực tế** là giá trị then chốt: **chi phí** (API tính phí theo token, nên số token bằng chi phí, cần tối ưu prompt và quản lý hội thoại), **giới hạn context** (tài liệu hoặc hội thoại dài vượt window, cần các chiến lược như tóm tắt, chunk, hoặc RAG để truy xuất phần liên quan thay vì gửi tất cả), và rằng context dài có thể chậm và tốn hơn (với hiện tượng lost-in-the-middle khi model chú ý ít hơn tới nội dung ở giữa).

Các hệ quả thực tế này — thiết kế prompt và ứng dụng trong giới hạn token, quản lý chi phí, và xử lý ràng buộc context qua RAG — là thiết yếu để xây dựng ứng dụng LLM hiệu quả và tiết kiệm chi phí.

Hiểu token và context window là nền tảng cho thiết kế ứng dụng LLM (quản lý chi phí, xử lý context, làm việc trong giới hạn).

Vì token và context window cơ bản với cách LLM hoạt động và với việc quản lý ứng dụng LLM (chi phí theo token, giới hạn context cần các chiến lược như RAG) và hiểu chúng quan trọng để dùng LLM hiệu quả và xây dựng ứng dụng tiết kiệm, nên hiểu token và context window là kiến thức AI cấp senior giá trị, quan trọng về mặt thực tế — nền tảng cho cách LLM xử lý văn bản (token) và giới hạn của chúng (context window), quan trọng để quản lý chi phí ứng dụng LLM (giá theo token) và xử lý ràng buộc context (qua RAG, chunk), và là kiến thức thực tế then chốt để thiết kế ứng dụng LLM hiệu quả, tiết kiệm.