Tokens είναι οι μονάδες με τις οποίες τα LLMs επεξεργάζονται το κείμενο (κομμάτια λέξεων), και το context window είναι το μέγιστο ποσό κειμένου (tokens) που ένα LLM μπορεί να εξετάσει ταυτόχρονα. Η κατανόησή τους είναι σημαντική για την αποτελεσματική χρήση των LLMs, τη διαχείριση του κόστους και την αντιμετώπιση των περιορισμών τους.
Τι είναι τα tokens
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
→ text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
→ e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
→ the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
