Care este diferența dintre prompt engineering, RAG și fine-tuning, și când utilizezi fiecare?

Question

Accepted Answer

Acestea sunt trei moduri de a face un LLM să facă ceea ce dorești, funcționând la **niveluri diferite**: prompting-ul modelează *comportamentul*, RAG injectează *cunoștințe*, și fine-tuning-ul schimbă *modelul*.

## Cele trei abordări

- **Prompt engineering** — modelează comportamentul modelului prin instrucțiuni, context și exemple în prompt. Nimic nu se schimbă la nivel de model; pur și simplu comunici mai bine (system prompts, few-shot examples, format output). Cel mai ieftin și rapid; **primul tău recurs**.
- **RAG (retrieval-augmented generation)** — la momentul interogării, recuperează documente relevante (din vector store, bază de date sau căutare) și inserează-le în prompt. Modelul răspunde *din* acel context furnizat. Cel mai bun când cunoștințele sunt **externe, private sau în schimbare**.
- **Fine-tuning** — continuă antrenarea modelului pe propriile tale exemple, ajustând **greutățile** sale. Aceasta încorporează un stil consistent, format sau abilitate îngustă. Puternic dar costisitor și **static** — cunoștințele sunt înghețate la momentul antrenării.

## Comparație

| | Prompt engineering | RAG | Fine-tuning |
|---|---|---|---|
| **Schimbări** | Promptul | Promptul (+ retrieval) | Greutățile modelului |
| **Cel mai bun pentru** | Comportament, format, ton | Fapte actualizate / private | Stil consistent, sarcini înguste |
| **Actualitatea cunoștințelor** | N/A | Live (re-index date) | Înghețate la momentul antrenării |
| **Cost / efort** | Cel mai mic | Mediu (infra) | Cel mai mare (antrenare + date) |
| **Actualizare** | Editează textul | Actualizează indexul | Re-antrenare |

## Ghid de decizie

- Începe cu **prompting** — rezolvă-o gratuit mai întâi.
- Ai nevoie de fapte pe care modelul nu le cunoaște, sau care se schimbă (documente, prețuri, date interne)? Folosește **RAG**.
- Ai nevoie de un stil/format fiabil sau o sarcină specializată la scară, iar prompting-ul nu este destul de consistent? **Fine-tune**.
- Acestea se **combină**: un model fine-tuned cu RAG și un prompt bun este frecvent în producție.

## De ce conteaza

A folosi instrumentul greșit este costisitor: oamenii încearcă adesea să fină-ajusteze pentru a adăuga cunoștințe (pe care RAG o face mai bine și mai ieftin) sau pentru a corecta comportamentul (pe care prompting-ul o gestionează). Știind că **prompting-ul modelează comportamentul, RAG furnizează cunoștințe, și fine-tuning-ul schimbă modelul** te permite să alegi cea mai ieftină abordare care funcționează — și să le combini deliberat mai degrabă decât din întâmplare.

	Prompt engineering	RAG	Fine-tuning
Schimbări	Promptul	Promptul (+ retrieval)	Greutățile modelului
Cel mai bun pentru	Comportament, format, ton	Fapte actualizate / private	Stil consistent, sarcini înguste
Actualitatea cunoștințelor	N/A	Live (re-index date)	Înghețate la momentul antrenării
Cost / efort	Cel mai mic	Mediu (infra)	Cel mai mare (antrenare + date)
Actualizare	Editează textul	Actualizează indexul	Re-antrenare