الرموز (Tokens) هي الوحدات التي تعالج بها نماذج اللغة الكبيرة النص (أجزاء من الكلمات)، والنافذة السياقية (Context Window) هي الحد الأقصى لكمية النص (الرموز) التي يمكن لنموذج اللغة الكبيرة أن يأخذها في الاعتبار في المرة الواحدة. يعتبر فهم هذه المفاهيم مهماً لاستخدام نماذج اللغة الكبيرة بفعالية وإدارة التكاليف والتعامل مع حدودها.
ما هي الرموز (Tokens)
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
→ text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
→ e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
→ the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
