Retrieval-Augmented Generation (RAG) là gì?

Question

Accepted Answer

**RAG (Retrieval-Augmented Generation)** kết hợp một LLM với một **hệ thống retrieval** — lấy thông tin liên quan từ một knowledge base và cung cấp nó cho LLM như ngữ cảnh để sinh ra các câu trả lời chính xác, có căn cứ. Đây là một kỹ thuật then chốt để xây dựng các ứng dụng LLM trên dữ liệu tùy chỉnh.

## RAG làm gì

```text
RAG → tăng cường việc sinh của LLM với thông tin liên quan được RETRIEVE:
  1. RETRIEVE → tìm trong một knowledge base (tài liệu/dữ liệu của bạn) thông tin liên quan đến truy vấn
  2. AUGMENT → thêm thông tin đã retrieve vào prompt của LLM như NGỮ CẢNH
  3. GENERATE → LLM trả lời dùng ngữ cảnh được cung cấp (có căn cứ trên dữ liệu của bạn)
→ cung cấp cho LLM kiến thức liên quan, cập nhật, cụ thể mà nó chưa được huấn luyện
```

## RAG thường hoạt động như thế nào

```text
→ index dữ liệu của bạn: chia tài liệu thành các chunk → tạo EMBEDDING → lưu trong một VECTOR DATABASE
→ tại thời điểm truy vấn: embed truy vấn → tìm các chunk TƯƠNG TỰ nhất (semantic search) →
  retrieve chúng
→ xây dựng một prompt: 'Dùng ngữ cảnh này: [các chunk đã retrieve], trả lời: [truy vấn]'
→ LLM sinh ra một câu trả lời có căn cứ trên ngữ cảnh đã retrieve
```

## Tại sao RAG có giá trị

```text
✓ Dùng dữ liệu RIÊNG/HIỆN TẠI của bạn → trả lời câu hỏi về tài liệu mà LLM chưa được huấn luyện
  (tài liệu riêng tư, thông tin gần đây, kiến thức cụ thể)
✓ Giảm HALLUCINATION → căn cứ câu trả lời trên các sự kiện đã retrieve → chính xác hơn, ít bịa hơn
✓ Cập nhật → retrieve thông tin hiện tại (thay vì knowledge cutoff cố định của model)
✓ CITATION → có thể hiển thị nguồn (các chunk đã retrieve) → tin cậy/xác minh
✓ rẻ hơn/dễ hơn so với fine-tuning để thêm kiến thức
→ một mẫu then chốt để xây dựng các ứng dụng LLM trên dữ liệu tùy chỉnh
```

## Tại sao điều này quan trọng

Hiểu RAG là kiến thức có giá trị vì nó là một **kỹ thuật then chốt để xây dựng các ứng dụng LLM thực tế** trên dữ liệu tùy chỉnh, nên ngày càng là kiến thức AI quan trọng cho developer.

RAG — kết hợp một LLM với một hệ thống retrieval để lấy thông tin liên quan và cung cấp nó như ngữ cảnh để sinh có căn cứ — là một mẫu cơ bản cho các ứng dụng LLM thực tế.

Hiểu **RAG làm gì** — retrieve thông tin liên quan từ một knowledge base, augment prompt của LLM với nó như ngữ cảnh, và sinh ra các câu trả lời có căn cứ trên dữ liệu đó — làm rõ cách RAG cung cấp cho LLM truy cập vào kiến thức mà nó chưa được huấn luyện.

Hiểu **RAG thường hoạt động như thế nào** — index dữ liệu bằng cách chia tài liệu thành các chunk, tạo embedding, và lưu chúng trong một vector database; sau đó tại thời điểm truy vấn embed truy vấn, tìm các chunk tương tự qua semantic search, và xây dựng một prompt với ngữ cảnh đã retrieve cho LLM — cung cấp kiến trúc thực tế (kết nối với embedding và vector database).

Hiểu **tại sao RAG có giá trị** là cái nhìn then chốt: nó cho phép LLM dùng **dữ liệu riêng và hiện tại của bạn** (trả lời về tài liệu riêng tư, thông tin gần đây, và kiến thức cụ thể mà LLM chưa được huấn luyện), **giảm hallucination** (căn cứ câu trả lời trên các sự kiện đã retrieve để chính xác — giải quyết một giới hạn nghiêm trọng của LLM), cung cấp **thông tin cập nhật** (so với knowledge cutoff cố định của model), cho phép **citation** (hiển thị nguồn để tin cậy), và rẻ hơn và dễ hơn so với fine-tuning để thêm kiến thức.

Những lợi ích này khiến RAG trở thành kỹ thuật ưu tiên để xây dựng các ứng dụng LLM trên dữ liệu tùy chỉnh (một nhu cầu rất phổ biến).

RAG là một trong những mẫu thực tế quan trọng nhất cho các ứng dụng LLM, ngày càng thiết yếu cho developer xây dựng các tính năng AI.

Vì RAG là một kỹ thuật then chốt để xây dựng các ứng dụng LLM thực tế trên dữ liệu tùy chỉnh (căn cứ LLM trên dữ liệu riêng/hiện tại của bạn, giảm hallucination, cho phép citation) — một nhu cầu rất phổ biến — và hiểu nó ngày càng quan trọng cho developer xây dựng các tính năng AI, nên hiểu RAG là kiến thức AI có giá trị, ngày càng thiết yếu — một mẫu cơ bản để xây dựng các ứng dụng LLM trên dữ liệu tùy chỉnh (căn cứ câu trả lời trên thông tin đã retrieve để giảm hallucination và dùng kiến thức riêng/hiện tại của bạn), ngày càng quan trọng cho developer, và là một kỹ thuật then chốt trong ứng dụng thực tế của LLM.