რა არის ცხრილის დაყოფა (partitioning)?

Question

Accepted Answer

**დაყოფა** (Partitioning) დიდ ცხრილს ყოფს პატარა ფიზიკურ ნაწილებად (**partitions**) - სვეტის მნიშვნელობის საფუძველზე, მაშინ როდესაც იგი კვლავ გამოჩნდება როგორც ერთი ლოგიკური ცხრილი შეკითხვებისთვის. ეს ამბობს მუშაობის სიჩქარე და მართვადობა ძალიან დიდი ცხრილებისთვის, რადგან მონაცემთა ბაზას შეუძლია მხოლოდ შესაბამისი partition-ები სკანირება ან მუშაობა.

## დაყოფის მუშაობის პრინციპი

```sql
-- a huge `orders` table partitioned BY RANGE on the order date
CREATE TABLE orders (id INT, order_date DATE, amount DECIMAL)
PARTITION BY RANGE (order_date);

CREATE TABLE orders_2023 PARTITION OF orders
  FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');
CREATE TABLE orders_2024 PARTITION OF orders
  FOR VALUES FROM ('2024-01-01') TO ('2025-01-01');
-- orders is ONE logical table, but stored as separate per-year partitions
```

ცხრილი ერთი ლოგიკური ერთეულია, მაგრამ ფიზიკურად განთავსებული partition-ებში. შეკითხვები და ჩასმები ავტომატურად სწორ partition-ში გადადის.

## მთავარი სარგებელი: partition pruning

```sql
-- a query filtered by the partition key only scans RELEVANT partitions
SELECT * FROM orders WHERE order_date >= '2024-06-01';
-- → the database skips orders_2023 entirely, scanning only orders_2024 ("partition pruning")
```

**Partition pruning** ძირითადი მუშაობის გაუმჯობესება: შეკითხვა, რომელიც ფილტრირებულია partition key-ზე, ეხება მხოლოდ შესაბამის partition-ებს, დანარჩენი გამოტოვებს — რაც მილიარდი სტრიქონის სკანირებას აქცევს მხოლოდ შესაბამისი ქვესიმრავლის სკანირებაში.

## დაყოფის სტრატეგიები

```text
RANGE → by a value range (dates, numeric ranges) — common for time-series data
LIST  → by a list of discrete values (region, category)
HASH  → by a hash of the key (even distribution across partitions)
```

## სხვა სარგებელი

```text
✓ Maintenance — drop/archive old data by dropping a whole partition (instant vs DELETE)
  e.g. DROP TABLE orders_2020 — far faster than DELETE WHERE year = 2020
✓ Smaller indexes per partition; parallel operations across partitions
✓ Manage huge tables in manageable pieces
```

## როდის გამოიყენოთ დაყოფა

```text
✓ VERY LARGE tables (hundreds of millions / billions of rows) where queries filter
  on a natural partition key (often time/date for logs, events, orders)
✓ Time-series data where you regularly archive/drop old data
✗ Small/medium tables — partitioning adds complexity with little benefit
  (proper indexing usually suffices)
→ Partitioning complements indexing for VERY large tables; it's not a substitute.
```

## რატომ აქვს მნიშვნელობა

ცხრილის დაყოფა მნიშვნელოვანი ტექნიკაა **ძალიან დიდი ცხრილების** მართვისა და შეკითხვის უზრუნველსაყოფად, და მისი გაგება ღირებული უფროსი დონის ცოდნაა მონაცემთა ბაზების გასაკეთებელი მოწვევის მასშტაბზე.

როდესაც ცხრილები იზრდება ასობით მილიონ ან მილიარდ სტრიქონამდე, თუნდაც ინდექსირებული შეკითხვები და მხარდამჭერი ოპერაციები შეიძლება ნელი გახდეს, და დაყოფა ამას უმკლავდება ცხრილის პატარა ფიზიკურ ნაწილებად დაყოფის გზით.

მთავარი მუშაობის გაუმჯობესება არის **partition pruning** — შეკითხვები, რომლებიც ფილტრირებულია partition key-ზე, სკანირება ხდება მხოლოდ შესაბამის partition-ებში (დანარჩენი გამოტოვებს), რაც მკვეთრად ამცირებს სკანირებული მონაცემების რაოდენობას დიდი ცხრილებისთვის (განსაკუთრებით ხშირი თარიხით ფილტრირებული დროის სერიების მონაცემებისთვის).

შეკითხვის მუშაობის გაბოლოებისთვის, დაყოფა უზრუნველყოფს დიდელ **მხარდამჭერ სარგებელს**: ძველი მონაცემების არქივირება ან წაშლა ხდება მყისიერი (მთელი partition-ის წაშლა ძვ.წ. ნელი,비싼 `DELETE` მილიონობით სტრიქონიდან — მნიშვნელოვანი საოპერაციო უპირატესობა ჟურნალ/ღონისძიება მონაცემებისთვის დაკავებული პოლიტიკით), პლუს პატარა per-partition ინდექსები და პარალელური ოპერაციები.

**სტრატეგიების** გაგება (RANGE დიაპაზონის/რიცხვითი დიაპაზონებისთვის — ხშირი დროის სერიებისთვის; LIST დისკრეტული მნიშვნელობებისთვის; HASH თანაბარი განაწილებისთვის) და კრიტიკულად **როდის გამოიყენოთ დაყოფა** (ძალიან დიდი ცხრილები ბუნებრივი partition key-თი, განსაკუთრებით დროის სერიები რეგულარული არქივირებით — *არა* პატარა/საშუალო ცხრილები სადაც ინდექსირება საკმარისია და დაყოფა მხოლოდ სირთულეს დამატებს) ასახავს მოწიფო გადაწყვეტილებას.

ვინაიდან ძალიან დიდი ცხრილების მართვა რეალური გამოწვევაა მასშტაბირებული სისტემებში, და ვინაიდან დაყოფა (partition pruning-თი და ეფიკური მხარდამჭერი მეთოდებით) არის სტანდარტული ინსტრუმენტი მისთვის — დამატებით და არა ჩანაცვლებით ინდექსირებისთვის — ცხრილის დაყოფის გაგება ღირებული უფროსი დონის ცოდნაა მონაცემთა ბაზების მასშტაბურობისთვის, განსაკუთრებით რელევანტური დიდ-მასშტაბური, დროის სერიის ან მაღალი მოცულობის მონაცემთა სისტემებისთვის და თემა, რომელიც ასახავს ცხადი ესმება მონაცემთა ბაზების მართვის მასშტაბზე.