Mik a B-tree és B+ tree, és miért használják őket az adatbázisok?

Question

Accepted Answer

A **B-tree** egy önkiegyenlítő keresési fa, ahol minden csomópont **sok kulcsot** tartalmaz és **sok gyermeke** van (magas *fanout*). Ez a fát **sekélynek** tartja, minimalizálva a **lemezolvasások** számát — amit pontosan az adatbázisok és fájlrendszerek igényelnek. ## Miért fontos ez ```text Binary BST over 1,000,000 keys -> height ~20 (20 disk seeks) B-tree, 100 keys/node -> height ~3 (3 disk seeks) Each node = one disk block/page read. ``` ## Szerkezet (B-tree 4. sorrend) ```text [ 17 | 35 ] / | \ [4|9|12] [20|28] [40|50|60] each node packs many keys -> few levels ``` ## B+ tree finomítás A **B+ tree**-ben *minden érték a levelekben él* és a levelek **összekapcsoltak**, így a tartomány-keresések egy összekapcsolt levelek listáját haladják meg — ideális olyan lekérdezésekhez, mint `WHERE age BETWEEN 20 AND 40`. ```text internal nodes: keys only (routing) leaves: [..]<->[..]<->[..] <- linked for fast range scans ``` ## Bonyolultság | Művelet | Idő | Lemez I/O | |---|---|---| | keresés | O(log n) | O(magasság) | | beszúrás / törlés | O(log n) | O(magasság) | | tartomány-keresés | O(log n + k) | szekvenciális levelek | ## Miért fontos ez A lemez és SSD hozzáférés nagyságrendekkel lassabb, mint a memória, így a mérvadó metrika az **I/O-szám, nem az összehasonlítások**. A magas fanout drámaian csökkenti az I/O-t azáltal, hogy a fát csak néhány szint mélyre tartja. Ezért szinte minden relációs adatbázis-index (és sok fájlrendszer) B+ trees alapján épül, nem pedig bináris keresési fák alapján.

Művelet	Idő	Lemez I/O
keresés	O(log n)	O(magasság)
beszúrás / törlés	O(log n)	O(magasság)
tartomány-keresés	O(log n + k)	szekvenciális levelek