Tokens என்பவை LLM-கள் உரையைச் செயல்படுத்தும் அலகுகள் (சொற்களின் துண்டுகள்), மேலும் context window என்பது LLM ஒரு முறையில் கருத்தில் கொள்ளக்கூடிய அதிகतम உரையின் அளவு (tokens). LLM-களை திறம்பட பயன்படுத்துவதற்கும், செலவுகளை நிர்வகிப்பதற்கும், அவற்றின் வரம்புகளைக் கையாள்வதற்கும் இவற்றைப் புரிந்துகொள்வது முக்கியம்.
Tokens என்பவை என்ன
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
→ text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
→ e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
→ the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
