Apakah itu Retrieval-Augmented Generation (RAG)?

Question

Accepted Answer

**RAG (Retrieval-Augmented Generation)** menggabungkan LLM dengan **sistem retrieval** — mengambil maklumat relevan daripada knowledge base dan memberikannya kepada LLM sebagai konteks untuk menjana jawapan yang tepat dan berasaskan. Ia adalah teknik utama untuk membina aplikasi LLM atas data tersuai.

## Apa yang RAG lakukan

```text
RAG → augment an LLM's generation with RETRIEVED relevant information:
  1. RETRIEVE → search a knowledge base (your documents/data) for info relevant to the query
  2. AUGMENT → add the retrieved info to the LLM's prompt as CONTEXT
  3. GENERATE → the LLM answers using the provided context (grounded in your data)
→ gives the LLM relevant, up-to-date, specific knowledge it wasn't trained on
```

## Bagaimana RAG biasanya berfungsi

```text
→ index your data: split documents into chunks → create EMBEDDINGS → store in a VECTOR DATABASE
→ at query time: embed the query → find the most SIMILAR chunks (semantic search) →
  retrieve them
→ build a prompt: 'Using this context: [retrieved chunks], answer: [query]'
→ the LLM generates an answer grounded in the retrieved context
```

## Mengapa RAG berharga

```text
✓ Use your OWN/CURRENT data → answer questions about documents the LLM wasn't trained on
  (private docs, recent info, specific knowledge)
✓ Reduce HALLUCINATION → grounding answers in retrieved facts → more accurate, less made-up
✓ Up-to-date → retrieve current info (vs the model's fixed training cutoff)
✓ CITATIONS → can show sources (the retrieved chunks) → trust/verification
✓ cheaper/easier than fine-tuning for adding knowledge
→ a key pattern for building LLM apps over custom data
```

## Mengapa ia penting

Memahami RAG adalah berharga kerana ia adalah **teknik utama untuk membina aplikasi LLM praktikal** atas data tersuai, jadi ia adalah pengetahuan AI yang semakin penting untuk pembangun.

RAG — menggabungkan LLM dengan sistem retrieval untuk mengambil maklumat relevan dan memberikannya sebagai konteks untuk penjanaan yang berasaskan — ialah corak fundamental untuk aplikasi LLM dunia sebenar.

Memahami **apa yang RAG lakukan** — mengambil maklumat relevan daripada knowledge base, mengaugmentasi prompt LLM dengannya sebagai konteks, dan menjana jawapan yang berasaskan data itu — menjelaskan cara RAG memberi LLM akses kepada pengetahuan yang ia tidak dilatih untuknya.

Memahami **bagaimana RAG biasanya berfungsi** — mengindeks data dengan membahagikan dokumen kepada chunk, mencipta embedding, dan menyimpannya dalam vector database; kemudian pada masa pertanyaan membenamkan pertanyaan, mencari chunk serupa melalui semantic search, dan membina prompt dengan konteks yang diambil untuk LLM — memberikan seni bina praktikal (menghubungkan kepada embedding dan vector database).

Memahami **mengapa RAG berharga** ialah pandangan utama: ia membenarkan LLM menggunakan **data anda sendiri dan semasa** (menjawab tentang dokumen peribadi, maklumat terkini, dan pengetahuan khusus yang LLM tidak dilatih untuknya), **mengurangkan halusinasi** (mengasaskan jawapan pada fakta yang diambil untuk ketepatan — menangani kelemahan LLM yang kritikal), menyediakan **maklumat terkini** (berbanding training cutoff tetap model), membolehkan **citation** (menunjukkan sumber untuk kepercayaan), dan lebih murah serta mudah daripada fine-tuning untuk menambah pengetahuan.

Manfaat ini menjadikan RAG teknik pilihan untuk membina aplikasi LLM atas data tersuai (keperluan yang sangat biasa).

RAG ialah salah satu corak praktikal yang paling penting untuk aplikasi LLM, semakin penting untuk pembangun yang membina ciri AI.

Memandangkan RAG ialah teknik utama untuk membina aplikasi LLM praktikal atas data tersuai (mengasaskan LLM pada data anda sendiri/semasa, mengurangkan halusinasi, membolehkan citation) — keperluan yang sangat biasa — dan memahaminya semakin penting untuk pembangun yang membina ciri AI, memahami RAG ialah pengetahuan AI yang berharga dan semakin penting — corak fundamental untuk membina aplikasi LLM atas data tersuai (mengasaskan jawapan pada maklumat yang diambil untuk mengurangkan halusinasi dan menggunakan pengetahuan anda sendiri/semasa), semakin penting untuk pembangun, dan teknik utama dalam aplikasi praktikal LLM.