Apakah data partitioning dan sharding?

Question

Accepted Answer

**Data partitioning** (sharding) membahagikan data merentasi pelbagai pelayan/pangkalan data supaya setiap satu memegang subset — membolehkan penskalaan mendatar data dan beban melangkaui satu pelayan. Memilih cara untuk membahagikan (partition key dan strategi) adalah kritikal.

## Apakah partitioning/sharding

```text
PARTITIONING / SHARDING → divide data into pieces (partitions/shards) across multiple
servers, each holding a SUBSET:
  → no single server holds (or is overwhelmed by) all the data
  → scales STORAGE and LOAD horizontally (each shard handles its portion)
  → enables handling data/throughput beyond one machine's capacity
```

## Strategi partitioning

```text
HASH-based → hash the partition key → assign to a shard:
  ✓ EVEN distribution (avoids hotspots)  ✗ range queries hard; resharding is tricky
RANGE-based → partition by value ranges (e.g. A-M, N-Z; date ranges):
  ✓ efficient range queries  ✗ risk of HOTSPOTS (uneven load if data/access is skewed)
DIRECTORY/lookup → a lookup table maps keys to shards (flexible, but the lookup is overhead)
GEOGRAPHIC → partition by region (data locality)
```

## Pilihan kritikal: partition key

```text
The PARTITION KEY (shard key) is the most important decision:
  ✓ HIGH CARDINALITY + EVEN distribution → spreads data/load evenly (no hot shards)
  ✓ Aligns with QUERY patterns → queries hit one shard (efficient) vs all (scatter-gather)
  ✗ A BAD key → hotspots (one shard overloaded), uneven data, or queries hitting all shards
  → hard to change later → choose carefully
```

## Cabaran

```text
⚠️ CROSS-SHARD queries/joins are hard (data spread across shards) and slow (scatter-gather)
⚠️ REBALANCING / adding shards is complex (moving data)
⚠️ Transactions across shards are difficult; hotspots; operational complexity
→ powerful for scale, but adds significant complexity → use when truly needed
```

## Mengapa ia penting

Memahami data partitioning dan sharding bernilai kerana ia merupakan **teknik utama untuk menskalakan data melangkaui satu pelayan**, satu cabaran kritikal untuk sistem besar, jadi ia merupakan pengetahuan system design yang penting.

Partitioning/sharding — membahagikan data merentasi pelbagai pelayan supaya setiap satu memegang subset — membolehkan **penskalaan mendatar storan dan beban** melangkaui kapasiti satu mesin, penting apabila data atau throughput melebihi apa yang dapat dikendalikan oleh satu pelayan.

Memahami **strategi** dan pertukaran mereka — **berasaskan hash** (taburan sekata yang mengelakkan hotspot, tetapi menyukarkan range query dan resharding), **berasaskan range** (range query yang cekap tetapi berisiko hotspot daripada kepincangan), berasaskan direktori (fleksibel dengan overhead lookup), dan geografi — adalah perlu untuk memilih cara membahagikan.

Yang paling kritikal, memahami bahawa **partition key merupakan keputusan terpenting** adalah pandangan utama: kunci yang baik (kardinaliti tinggi, taburan sekata, sejajar dengan corak query supaya query mengena satu shard dan bukannya semua) menyebarkan beban secara sekata dan membolehkan query yang cekap, manakala kunci yang buruk menyebabkan hotspot (satu shard terlebih beban), data tidak sekata, atau query scatter-gather — dan kerana ia sukar diubah kemudian, memilih dengan teliti adalah penting.

Memahami **cabaran** — bahawa cross-shard query dan join adalah sukar dan perlahan, rebalancing dan menambah shard adalah kompleks, dan transaksi cross-shard adalah sukar — adalah penting kerana ini menjadikan sharding berkuasa tetapi sangat kompleks, jadi ia patut digunakan apabila benar-benar diperlukan (selepas penskalaan yang lebih ringkas seperti caching dan replikasi).

Memandangkan menskalakan data melangkaui satu pelayan merupakan cabaran kritikal untuk sistem besar dan partitioning/sharding (dengan keputusan partition key yang penting serta pertukaran dan cabarannya) merupakan tekniknya, dan memandangkan memahami strategi, kepentingan partition key, dan cabarannya adalah penting untuk mereka bentuk sistem berskala besar, memahami data partitioning dan sharding merupakan pengetahuan system design yang bernilai dan relevan secara praktikal — teknik utama untuk penskalaan data mendatar, memerlukan pemahaman teliti tentang strategi partition, pilihan partition key yang kritikal, dan cabaran yang besar, dan menjadi teras kepada mereka bentuk sistem yang menskalakan data melangkaui kapasiti satu pelayan.