B 树与 B+ 树详解：原理、实现及 MySQL 索引应用

B 树与 B+ 树详解

1. 常见的搜索结构

种类	数据格式	时间复杂度
顺序查找	无要求	O(N)
二分查找	有序	O(logN)
二叉搜索树	无要求	O(N)
二叉平衡树 (AVL 树和红黑树)	无要求	O(logN)
哈希	无要求	O(1)

以上结构适合用于数据量相对不大，能够一次性存放在内存中，进行数据查找的场景。如果数据量很大，比如有 100G 数据，无法一次放进内存中，那就只能放在磁盘上了。如果放在磁盘上，有需要搜索某些数据，那么如何处理呢？我们可以考虑将存放关键字及其映射的数据的地址放到一个内存中的搜索树的节点中，访问数据时，先取这个地址去磁盘访问。

使用平衡二叉树搜索树的缺陷

平衡二叉树搜索树的高度是 logN，这个查找次数在内存中是很快的。但是当数据都在磁盘中时，访问磁盘速度很慢。在数据量很大时，logN 次的磁盘访问是一个难以接受的结果。

使用哈希表的缺陷

哈希表的效率很高是 O(1)，但是一些极端场景下某个位置冲突很多，导致访问次数剧增，也是难以接受的。

那如何加速对数据的访问呢？

提高 IO 的速度（SSD 相比传统机械硬盘快了不少，但是还是没有得到本质性的提升）
降低树的高度——多叉树平衡树

2. B 树概念

B 树是一种平衡的多叉树，核心目标是最小化磁盘 IO 次数，是数据库、文件系统索引的核心数据结构。

一棵 M 阶（M>=3）的 B 树，是一棵平衡的 M 路平衡搜索树，可以是空树或者满足以下性质：

根节点至少有两个孩子
分支节点组成：每个分支节点都包含 k - 1 个关键字和 k 个孩子，其中 ceil(M/2) ≤ k ≤ M（ceil 是向上取整函数）；
叶子节点组成：每个叶子节点都包含 k - 1 个关键字，其中 ceil(M/2) ≤ k ≤ M；
有序性：每个节点内的键值按升序排列，节点当中 k-1 个元素正好是 k 个孩子包含的元素的值域划分；
平衡特性：所有叶子节点在同一层（保证查找路径长度一致，IO 次数固定）。
每个结点的结构为：（n，A0，K1，A1，K2，A2，… ，Kn，An）其中，Ki（1≤ i ≤n）为关键字，且 Ki < Ki+1(1≤ i ≤n-1)。Ai（0≤ i ≤n）为指向子树根结点的指针。且 Ai 所指子树所有结点中的关键字均小于 Ki+1。n 为结点中关键字的个数，满足 ceil(M/2) - 1 ≤ k ≤ M - 1；

B 树的节点组成如下：

键值数组：k₁ k₂ ... kₙ （n≤M-1）
子节点指针：p₀ p₁ ... pₙ （n+1≤M）
父节点指针：parent（可选，用于插入/删除）

// 找到应插入位置 pair<Node*, int> Find(const K& key) { Node* cur = _root, *parent = nullptr; while (cur) { int i = 0; while (i < cur->_n) { if (key < cur->_keys[i]) break; else if (key == cur->_keys[i]) return make_pair(cur, i); else ++i; } parent = cur; cur = cur->_subs[i]; } return make_pair(parent, -1); } // 插入键值 void InsertKey(Node* node, const K& key, Node* child) { // 从后往前，依次判断应插入位置 int end = node->_n - 1; while (end >= 0 && key < node->_keys[end]) { node->_keys[end + 1] = node->_keys[end]; node->_subs[end + 2] = node->_subs[end + 1]; --end; } node->_keys[end + 1] = key; node->_subs[end + 2] = child; if (child) child->_parent = node; node->_n++; } // 插入主逻辑 bool Insert(const K& key) { if (_root == nullptr) { _root = new Node; _root->_keys[0] = key; _root->_n++; return true; } // 判断 key 是否已存在 pair<Node*, int> ret = Find(key); if (ret.second >= 0) return false; // key 不存在，find 带回来要插入的那个节点 // 循环每次往 parent 插入 newkey 和 child Node* parent = ret.first; Node* child = nullptr; K newKey = key; while (1) { InsertKey(parent, newKey, child); // 没有满，插入就结束了 if (parent->_n < M) { return true; } // 满了就要分裂出兄弟节点，并将中间值插入父节点 else { size_t mid = M / 2; Node* brother = new Node; size_t j = 0; size_t i = mid + 1; for (; i < M; ++i) { // 拷贝键值和左孩子到兄弟节点 brother->_keys[j] = parent->_keys[i]; brother->_subs[j] = parent->_subs[i]; if (parent->_subs[i]) parent->_subs[i]->_parent = brother; ++j; // 清除原节点 parent->_keys[i] = K(); parent->_subs[i] = nullptr; } // 还有最后一个右孩子 brother->_subs[j] = parent->_subs[i]; if (parent->_subs[i]) parent->_subs[i]->_parent = brother; parent->_subs[i] = nullptr; brother->_n = j; parent->_n -= j + 1; K midKey = parent->_keys[mid]; parent->_keys[mid] = K(); if (parent->_parent == nullptr) // 说明刚才分裂的是根节点 { _root = new Node; _root->_keys[0] = midKey; _root->_subs[0] = parent; _root->_subs[1] = brother; _root->_n = 1; parent->_parent = _root; brother->_parent = _root; break; } else { newKey = midKey; child = brother; parent = parent->_parent; } } } return true; } // 中序遍历 void _InOrder(Node* cur) { if (cur == nullptr) return; // 左子根左子根 ... 右 size_t i = 0; for (; i < cur->_n; ++i) { _InOrder(cur->_subs[i]); cout << cur->_keys[i] << " "; } // 最后的右子树 _InOrder(cur->_subs[i]); }

B 树与 B+ 树详解：原理、实现及 MySQL 索引应用