Što je Retrieval-Augmented Generation (RAG)?

Question

Accepted Answer

**RAG (Retrieval-Augmented Generation)** kombinira LLM sa **sustavom za pretraživanje** — dohvaćanjem relevantnih informacija iz baze znanja i pružanjem kao konteksta LLM-u kako bi generirao točne, utemeljene odgovore. Ključna je tehnika za izgradnju LLM aplikacija nad prilagođenim podacima.

## Što RAG radi

```text
RAG → augment an LLM's generation with RETRIEVED relevant information:
  1. RETRIEVE → search a knowledge base (your documents/data) for info relevant to the query
  2. AUGMENT → add the retrieved info to the LLM's prompt as CONTEXT
  3. GENERATE → the LLM answers using the provided context (grounded in your data)
→ gives the LLM relevant, up-to-date, specific knowledge it wasn't trained on
```

## Kako RAG obično funkcionira

```text
→ index your data: split documents into chunks → create EMBEDDINGS → store in a VECTOR DATABASE
→ at query time: embed the query → find the most SIMILAR chunks (semantic search) →
  retrieve them
→ build a prompt: 'Using this context: [retrieved chunks], answer: [query]'
→ the LLM generates an answer grounded in the retrieved context
```

## Zašto je RAG vrijedan

```text
✓ Use your OWN/CURRENT data → answer questions about documents the LLM wasn't trained on
  (private docs, recent info, specific knowledge)
✓ Reduce HALLUCINATION → grounding answers in retrieved facts → more accurate, less made-up
✓ Up-to-date → retrieve current info (vs the model's fixed training cutoff)
✓ CITATIONS → can show sources (the retrieved chunks) → trust/verification
✓ cheaper/easier than fine-tuning for adding knowledge
→ a key pattern for building LLM apps over custom data
```

## Zašto je to važno

Razumijevanje RAG-a je vrijednost jer je **ključna tehnika za izgradnju praktičnih LLM aplikacija** nad prilagođenim podacima, pa je sve važnije znanje iz AI-a za razvojne inženjere.

RAG — kombiniranje LLM-a sa sustavom za pretraživanje kako bi se dohvatile relevantne informacije i pružile kao kontekst za utemeljenu generaciju — temeljna je struktura za stvarne LLM aplikacije.

Razumijevanje **što RAG radi** — pretraživanje relevantnih informacija iz baze znanja, ojačavanje LLM prompta sa njima kao kontekst, te generiranje odgovora utemeljenih u tim podacima — pojašnjava kako RAG daje LLM-ovima pristup znanju na kojem nisu obučavani.

Razumijevanje **kako RAG obično funkcionira** — indeksiranje podataka dijeljenjem dokumenata na dijelove, stvaranje embedinga, te pohranu u vektorsku bazu; zatim tijekom upita umetanje upita, pronalaženje sličnih dijelova semantskom pretragom, te izgradnju promptа s pretraživanim kontekstom za LLM — pruža praktičnu arhitekturu (povezanost s embeddingima i vektorskim bazama).

Razumijevanje **zašto je RAG vrijedan** ključan je uvid: omogućava LLM-ovima korištenje **vaših vlastitih i trenutnih podataka** (odgovaranje o privatnim dokumentima, novim informacijama, te specifičnom znanju na kojem LLM nije obučavan), **smanjuje halucinacije** (utemeljavanje odgovora u pretraživanim činjenicama zbog točnosti — obraćanje kritičnog ograničenja LLM-a), pruža **ažurirane informacije** (naspram fiksne točke obuke modela), omogućava **citiranje** (pokazivanje izvora za povjerenje), te je jeftinije i lakše nego fine-tuning za dodavanje znanja.

Te prednosti čine RAG tehnikom izbora za izgradnju LLM aplikacija nad prilagođenim podacima (vrlo česta potreba).

RAG je jedan od najvažnijih praktičnih obrazaca za LLM aplikacije, sve je važniji za razvojne inženjere koji grade AI značajke.

Budući da je RAG ključna tehnika za izgradnju praktičnih LLM aplikacija nad prilagođenim podacima (utemeljavanje LLM-a u vlastitim/trenutnim podacima, smanjenje halucinacija, omogućavanje citiranja) — vrlo česta potreba — te što je razumijevanje sve važnije za razvojne inženjere koji grade AI značajke, razumijevanje RAG-a je vrijednost, sve važnije AI znanje — temeljni obrazac za izgradnju LLM aplikacija nad prilagođenim podacima (utemeljavanje odgovora u pretraživanim informacijama kako bi se smanjile halucinacije i koristilo vlastito/trenutno znanje), sve važnije za razvojne inženjere, te ključna tehnika u praktičnoj primjeni LLM-a.