Embedding là các biểu diễn vector số của dữ liệu (văn bản, hình ảnh, v.v.) nắm bắt ý nghĩa ngữ nghĩa — đặt các mục tương tự gần nhau trong một không gian vector. Chúng là nền tảng của AI hiện đại, cho phép semantic search, recommendation và RAG.
Embedding là gì
EMBEDDING → một VECTOR (danh sách các số) biểu diễn dữ liệu (một từ, câu, hình ảnh, v.v.):
→ nắm bắt Ý NGHĨA → các mục tương tự về ngữ nghĩa có các vector TƯƠNG TỰ (gần nhau trong không gian vector)
→ vd 'king' và 'queen' có embedding tương tự; 'cat' và 'dog' gần nhau hơn so với
'cat' và 'car'
→ được tạo ra bởi các model (embedding model) học các biểu diễn có ý nghĩa
→ biến dữ liệu thành số nắm bắt ý nghĩa ngữ nghĩa (ý nghĩa như hình học)
