টোকেন হল এমন ইউনিট যা LLM-গুলি টেক্সট প্রসেস করে (শব্দের টুকরা), এবং কনটেক্সট উইন্ডো হল সর্বাধিক পরিমাণ টেক্সট (টোকেন) যা একটি LLM একবারে বিবেচনা করতে পারে। LLM-গুলি কার্যকরভাবে ব্যবহার করা, খরচ পরিচালনা করা এবং তাদের সীমাবদ্ধতা সামলানোর জন্য এটি বোঝা গুরুত্বপূর্ণ।
টোকেন কী
TOKEN → the unit LLMs process text in (not words/characters, but PIECES):
→ text is split into tokens (roughly ~4 characters or ~0.75 words each in English)
→ e.g. 'unbelievable' might be 3 tokens; common words are often 1 token
→ the model processes and generates token by token
→ LLMs work in tokens (input and output are measured in tokens)
