데이터 파티셔닝과 sharding이란 무엇인가요?

Question

Accepted Answer

**데이터 파티셔닝(data partitioning, sharding)**은 데이터를 여러 서버/데이터베이스에 분할하여 각각이 subset을 보유하게 합니다 — 단일 서버를 넘어 데이터와 부하의 수평 확장을 가능하게 합니다. 어떻게 분할할지(partition key와 전략) 선택하는 것이 결정적입니다.

## 파티셔닝/sharding이란

```text
파티셔닝 / SHARDING → 데이터를 조각(partition/shard)으로 나눠 여러
서버에 분산, 각각 SUBSET 보유:
  → 어떤 단일 서버도 모든 데이터를 보유(하거나 압도되)지 않음
  → 저장소와 부하를 수평으로 확장 (각 shard가 자기 몫을 처리)
  → 한 머신 용량을 넘는 데이터/throughput 처리 가능
```

## 파티셔닝 전략

```text
HASH 기반 → partition key를 해시 → shard에 할당:
  ✓ 고른 분산 (핫스팟 회피)  ✗ 범위 쿼리 어려움; 리샤딩이 까다로움
RANGE 기반 → 값 범위로 분할 (예: A-M, N-Z; 날짜 범위):
  ✓ 효율적 범위 쿼리  ✗ 핫스팟 위험 (데이터/접근이 치우치면 고르지 않은 부하)
DIRECTORY/조회 → 조회 테이블이 key를 shard에 매핑 (유연하나 조회가 오버헤드)
GEOGRAPHIC → 리전별 분할 (데이터 지역성)
```

## 결정적 선택: partition key

```text
PARTITION KEY (shard key)가 가장 중요한 결정:
  ✓ 높은 카디널리티 + 고른 분산 → 데이터/부하를 고르게 분산 (hot shard 없음)
  ✓ 쿼리 패턴과 정렬 → 쿼리가 한 shard에 맞음 (효율적) vs 모두 (scatter-gather)
  ✗ 나쁜 key → 핫스팟 (한 shard 과부하), 고르지 않은 데이터, 또는 모든 shard에 맞는 쿼리
  → 나중에 바꾸기 어려움 → 신중히 선택
```

## 과제

```text
⚠️ 교차 shard 쿼리/조인이 어렵고 (데이터가 shard에 분산) 느림 (scatter-gather)
⚠️ 리밸런싱 / shard 추가가 복잡 (데이터 이동)
⚠️ shard 간 트랜잭션이 어려움; 핫스팟; 운영 복잡성
→ 규모에 강력하나 상당한 복잡성을 더함 → 정말 필요할 때 사용
```

## 왜 중요한가

데이터 파티셔닝과 sharding을 이해하는 것은 가치가 있습니다. 대규모 시스템의 핵심 과제인 **단일 서버를 넘어 데이터를 확장하는 핵심 기법**이므로 중요한 시스템 디자인 지식이기 때문입니다.

파티셔닝/sharding — 데이터를 여러 서버에 분할하여 각각이 subset을 보유 — 은 한 머신 용량을 넘어 **저장소와 부하의 수평 확장**을 가능하게 하며, 데이터나 throughput이 단일 서버가 처리할 수 있는 것을 초과할 때 필수적입니다.

**전략**과 그 트레이드오프 — **hash 기반**(핫스팟을 피하는 고른 분산이지만 범위 쿼리와 리샤딩이 어려움), **range 기반**(효율적 범위 쿼리지만 치우침에서 핫스팟 위험), directory 기반(조회 오버헤드가 있는 유연성), geographic — 을 이해하는 것이 어떻게 분할할지 선택하는 데 필요합니다.

가장 결정적으로, **partition key가 가장 중요한 결정**임을 이해하는 것이 핵심 통찰입니다. 좋은 key(높은 카디널리티, 고른 분산, 쿼리가 모두가 아니라 한 shard에 맞도록 쿼리 패턴과 정렬)는 부하를 고르게 분산하고 효율적 쿼리를 가능하게 하는 반면, 나쁜 key는 핫스팟(한 shard 과부하), 고르지 않은 데이터, 또는 scatter-gather 쿼리를 유발하며 — 나중에 바꾸기 어려우므로 신중히 선택하는 것이 필수적입니다.

**과제** — 교차 shard 쿼리와 조인이 어렵고 느리며, 리밸런싱과 shard 추가가 복잡하고, 교차 shard 트랜잭션이 어려움 — 을 이해하는 것이 중요합니다. 이것들이 sharding을 강력하지만 상당히 복잡하게 만들므로, 정말 필요할 때(캐싱과 replication 같은 더 단순한 확장 이후) 사용해야 합니다.

단일 서버를 넘어 데이터를 확장하는 것은 대규모 시스템의 핵심 과제이고 파티셔닝/sharding(결정적인 partition key 결정과 그 트레이드오프·과제와 함께)이 그 기법이며, 전략·partition key 중요성·과제를 이해하는 것이 대규모 시스템 설계에 중요하므로, 데이터 파티셔닝과 sharding을 이해하는 것은 가치 있고 실용적으로 관련된 시스템 디자인 지식입니다 — 수평 데이터 확장의 핵심 기법이고, 파티션 전략·결정적 partition key 선택·상당한 과제의 신중한 이해를 요구하며, 단일 서버 용량을 넘어 데이터를 확장하는 시스템 설계의 중심입니다.