embedding은 데이터(텍스트, 이미지 등)의 수치 벡터 표현으로 의미적 의미를 포착합니다 — 유사한 항목을 벡터 공간에서 가까이 배치합니다. embedding은 현대 AI의 근간으로 의미 검색, 추천, RAG를 가능하게 합니다.
embedding이란
EMBEDDING → 데이터(단어, 문장, 이미지 등)를 나타내는 벡터(숫자 목록):
→ 의미를 포착 → 의미적으로 유사한 항목은 유사한 벡터를 가짐(벡터 공간에서 가까움)
→ 예: 'king'과 'queen'은 유사한 embedding을 가짐; 'cat'과 'dog'는 'cat'과 'car'보다 가까움
→ 의미 있는 표현을 학습하는 model(embedding model)이 생성
→ 데이터를 의미적 의미를 포착하는 숫자로 변환(의미를 기하학으로)
embedding이 유용한 이유
✓ 의미적 유사도 → 항목이 얼마나 유사한지 측정(벡터 거리/코사인 유사도):
→ 키워드 일치가 아니라 의미로 유사/관련 항목을 찾음
✓ 의미 검색 → 의미로 검색(다른 단어를 써도 관련 결과를 찾음)
✓ 추천 → 유사한 항목 찾기(유사한 embedding)
✓ RAG → 문서 + 질의를 embedding → LLM을 위한 관련 문맥을 찾음(검색)
✓ 클러스터링, 분류 → 의미적 유사도로 그룹화/범주화
→ embedding은 정확한 일치가 아니라 데이터의 의미로 작업하게 함
