跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

数据结构 B 树概念详解 | 极客日志

编程语言算法

数据结构 B 树概念详解

B 树（B-Tree）的概念、性质、插入、删除操作及高度分析。涵盖 m 阶 B 树的定义、平衡性保证、节点分裂与合并机制，以及最小/最大高度推导公式。通过中序遍历验证其有序性，适合外查找场景下的数据结构学习。

猫巷少女发布于 2026/3/27更新于 2026/5/2421 浏览

数据结构 B 树概念详解

1. 常见的搜索结构

常见搜索结构

以上结构适合用于数据量相对不是很大，能够一次性存放在内存中，进行数据查找的场景（内查找）。

2. 问题提出

如果数据量很大，比如有 100G 数据，无法一次放进内存中，那就只能放在磁盘上了。如果放在磁盘上，有时需要搜索某些数据，该如何处理？

我们可以考虑将关键字及其映射的数据的地址放到一个内存中的搜索树的节点中，当通过搜索树找到要访问数据的关键字时，取这个关键字对应的地址去磁盘访问数据。

搜索树节点映射

但是，实际中去查找的这个 key 可能不都是整型：可能是字符串比如身份证号码，那这时我们还把所有的 key 和对应数据的地址都存到内存，也可能是存不下的。

这时候可以做一个改动：不再存储 key，只存储地址。

只存储地址

那这样的话如何判断找到了呢？需要拿着当前的地址去访问磁盘进行判断。

比如现在要找 key 为 77 的这个数据，从根结点开始，首先访问根结点中的地址对应磁盘的数据，是 34，那 77 大于 34，所以往右子树找，右子树 0x77 对应的是 89（又一次访问磁盘），77 比 89 小，再去左子树找，左子树地址 0x56 访问磁盘对应的是 77 找到了。

这样做的问题是什么呢？最坏的情况下我们要进行高度次的查找，那就意味着要进行高度次的磁盘 IO。

如果我们使用红黑树或者 AVL 树的话，就是 O(log₂N) 次。那如果是在内存中的话，这个查找次数还是很快的，但是现在数据量比较大是在磁盘上存的，而磁盘的速度是很慢的。

使用平衡二叉树搜索树的缺陷 平衡二叉树搜索树的高度是 logN，这个查找次数在内存中是很快的。但是当数据都在磁盘中时，访问磁盘速度很慢，在数据量很大时，logN 次的磁盘访问，是一个难以接受的结果。

使用哈希表的缺陷 哈希表的效率很高是 O(1)，但是一些极端场景下某个位置哈希冲突很严重，导致访问次数剧增，也是难以接受的。

那如何加速对数据的访问呢？

提高 IO 的速度 (SSD 相比传统机械硬盘快了不少，但是还是没有得到本质性的提升)
降低树的高度——多叉平衡树

B 树其实就是多叉平衡搜索树。

3. B 树的概念

1970 年，R.Bayer 和 E.mccreight 提出了一种适合外查找的树，它是一种平衡的多叉树并且是绝对平衡，称为 B 树 (后面有一个 B 树的改进版本 B+ 树，然后有些地方的 B 树写的的是 B-树，注意不要误读成"B 减树")。

一棵 m 阶 (m>2) 的 B 树，是一棵 M 路的平衡搜索树，可以是空树或者满足以下性质的树：

B 树性质

m 阶 B 树的每个节点最多有 m 个分支（子树），m-1 个元素（关键字）。

根节点最少有两个分支，1 个元素。

分节点最少有 m/2 个分支 ceil(m/2)-1 个元素（ceil 是向上取整函数）。注：该条性质其实保证了让每个结点存储的关键字尽可能多，分叉尽可能多，从而最大限度降低树的高度。如果每个结点只存储一个关键字，其实就退化成我们之前学的平衡搜索树了（根结点是个例外，因为无法保证，比如插入第一个结点，根结点就只有一个结点，无法满足最小值的限制）。

所有的叶结点都出现在同一层次上，并且不带信息（可以视为外部结点或类似于折半查找判定树的查找失败结点，实际上这些结点不存在，指向这些结点的指针为空）。

每个节点中的关键字从小到大（也可以从大到小）排列，节点当中 k-1 个元素正好是 k 个孩子包含的元素的值域划分。

每个节点的结构为：N = (n, A₀, K₁, A₁, K₂, A₂, …, Kₙ, Aₙ)，其中元素严格递增：K₁ < K₂ < … < Kₙ。关键字在节点中有序排列，每个关键字 Kᵢ 精确划分其左右子树的值域：

左子树 (Aᵢ₋₁)：所有值 < Kᵢ
右子树 (Aᵢ)：所有值 > Kᵢ

B 树结构示例

4. B 树的插入分析

以三阶 B-树（三叉平衡树）为例，每个结点最多存储两个关键字，两个关键字可以将区间分割成三个部分，因此节点应该有三个孩子（子树）。

三阶 B 树节点结构

为了后续实现起来简单，节点的结构如下：

简化节点结构

关键字和孩子我们都多给一个空间。

插入过程分析 用序列 {53, 139, 75, 49, 145, 36, 101} 构建 B 树的过程如下：

插入 53 满足 B-树的性质，不用动。
插入 139（关键字我们升序排列）也不用做任何处理。
插入 75 75 插入之后是这样，但是因为我们多开了一个空间，3 阶的话每个结点最多 3-1=2 个关键字。所以现在这个结点关键字个数超了。那此时怎么办呢？要进行一个操作——分裂。

怎么分裂呢？分裂操作

找到关键字序列的中间位置 ceil(m/2)，将关键字序列分成两半。
新建一个兄弟结点出来，将右半边的关键字分给兄弟结点（左半边留在原结点中）。
将中间值提给父亲结点，新建结点成为其右孩子（没有父亲就创建新的根）。
结点指针链接起来。

分裂完成

通过这里大家来体会一下上面的规则中为什么要求除根结点外的所有非叶子结点最少包含 ceil(m/2)-1 个关键字。如果 m 是奇数比如 9，那 ceil(m/2) 是 5 个，5-1 是 4，而 9 个的话分裂之后正好两边每个结点都是 4 个关键字，中间的一个提取给父亲。如果是偶数比如 10 的话，ceil(m/2) 是 5，5-1 是 4，而 10 个分裂的话，肯定不平均，一边 4 个（最少的），一边 5 个，还有一个中间值要提取给父亲。所以它们最少就是 ceil(m/2)-1 个关键字。

我们再插入几个看看：还是我们上面给的那组数据，再往后插入 49，145。插入 145

接着再往后，36。插入 36

那此时 36 插入的这个结点又满了，然后就要进行分裂。大家现在体会，为什么我们要多开一个空间？这样的话我们就可以在插入之后关键字顺序已经调整好的情况下去分裂，就方便很多。那然后我们来看这里的分裂怎么做？分裂 36

新增一个兄弟结点之后，相当于它们的父亲结点就多了一个孩子，所以也需要增加一个关键字（关键值始终比孩子少一个），就把中间值提给父亲结点。49 上提插入到父亲，它比 75 小，所以 75 往后移（它的孩子也跟着往后移），然后 49 插入到前面。

再往下插入 101：

那插入之后这个结点的关键字数量大于 m-1 了，进行分裂。分裂 101

但是此时分裂之后我们发现父亲满了，所以需要继续向上分裂。

这就是一个完整的插入过程。并且我们会发现 B-树每一次插入之后他都是天然的完全平衡，不需要像红黑树 AVL 树那样，插入之后不满足平衡条件了，再去调整。并且 B-树的平衡是绝对平衡。每一棵树的左右子树高度之差都是 0。为什么他能保持天然的完全平衡呢？通过上面的插入过程我们很容易发现 B 树是向右和向上生成的，只会产生新的兄弟和父亲。

插入过程总结

如果树为空，直接插入新节点中，该节点为树的根节点。
树非空，找待插入关键字在树中的插入位置 (注意：找到的插入节点位置一定在终端节点中)。
检测是否找到插入位置 (假设树中的 key 唯一，即该元素已经存在时则不插入)。
按照插入排序的思想将该关键字插入到找到的结点中。
检测该节点关键字数量是否满足 B-树的性质：即该节点中的元素个数是否等于 M，如果小于则满足，插入结束。
如果插入后节点不满足 B 树的性质，需要对该节点进行分裂：
- 申请新的兄弟节点。
- 找到该节点的中间位置 ceil(m/2)。
- 将该节点中间位置右侧的元素以及其孩子搬移到新节点中（左侧结点留在原结点）。
- 将中间位置元素（新建结点成为其右孩子）提取至父亲结点中插入，从步骤 4 重复上述操作。

5. B 树的删除（思想）

同样也需要分情况讨论：

删除的关键字在非终端结点 处理方法是：用其直接前驱或直接后继替代其位置，转化为对'终端结点'的删除。

直接前驱：当前关键字左边指针所指子树中'最右下'的元素。
直接后继：当前关键字右边指针所指子树中'最左下'的元素。

比如：删除非终端结点

现在要删除 75。首先第一种方法可以用直接前驱 55 替代其位置，然后我们把终端结点里的 55 删除即可。删除前驱

或者用直接后继 101 替代。删除后继

所以对非终端结点关键字的删除操作，必然可以转化为对终端结点的删除。所以下面我们重点来讨论终端结点的删除。

删除的关键字在终端结点且删除后结点关键字个数未低于下限 若删除后结点关键字个数未低于下限 ceil(m/2)-1，直接删除，无需做任何其它处理。

比如：删除终端结点

现在要删除 36，所在的结点是终端结点，且删除之后，关键字的个数不少于 ceil(3/2)-1=1，所以直接删除即可。删除完成

若删除的关键字在终端结点且删除后结点关键字个数低于下限 ceil(m/2)-1 这时候的处理思路是这样的：删除之后关键字数量低于下限，那就去'借'结点，跟父亲借，父亲再去跟兄弟借。如果不能借（即借完之后父亲或兄弟关键字个数也不满足了），那就按情况进行合并（可能要合并多次）。最终使得树重新满足 B-树的性质。

比如：删除导致不足

现在要删 40，那 40 删掉的话这个结点关键字个数就不满足性质了，那就去跟父亲借，49 借下来，那这样父亲不满足了，父亲再向兄弟借（要删除的那个关键字所在结点的兄弟结点），53 搞上去。变成这样：借位成功

此时就又符合是一棵 B-树了。

那如果不能借的情况呢？ 比如：无法借位

现在要删除 160。160 如果跟父亲借的话，150 下来，那父亲不满足了，因为 3 个孩子，必须是 2 个关键字。而且此时兄弟 145 所在的这个结点也不能借了。因为此时它只有一个关键字，父亲借走一个的话，就不满足了。所以此时借结点就不行了，就需要合并了。

如何合并呢？ 如果结点不够借，则需要将父结点内的关键字与兄弟进行合并。合并后导致父节点关键字数量 -1，可能需要继续合并。

我们先来看这个：合并示例 1

这个情况我们分析了不够借，所以要合并。大家看，160 删掉的话，父亲就少了一个孩子，那关键字也应该减少一个，所以可以把父结点的 150 与 145 这个孩子合并。合并完成

这样就可以了。当然还有些情况可能需要多次合并：比如：

现在要删 145，怎么办呢？肯定是不够借的，所以要合并，确保合并之后依然满足 B-树的规则就行了。大家看这个可以怎么合并：145 干掉之后，左子树这里就不满足了，可以先将 139 跟 102 合并。合并左子树

但是此时不平衡了（B-树是绝对平衡的）。那就要继续合并缩减高度：很容易看出来，我们可以将 101 和 53 合并作为根，这个正好两个关键字，3 个孩子。最终合并

就可以了。

6. B 树的高度

问：含 n 个关键字的 m 阶 B 树，最小高度、最大高度是多少？（注：大部分地方算 B 树的高度不包括叶子结点即查找失败结点）

最小高度 hₘᵢₙ 推导

前提条件：为了最小化高度，每个节点尽可能满

每个节点最多 m 个子树，m-1 个关键字
所有节点（包括根）都达到最大容量

推导过程：第 1 层（根）：1 个节点，最多 m-1 个关键字第 2 层：最多 m 个节点，每个最多 m-1 个关键字 → m(m-1) 个关键字第 3 层：最多 m² 个节点 → m²(m-1) 个关键字 ... 第 h 层：最多 mʰ⁻¹ 个节点 → mʰ⁻¹(m-1) 个关键字

总关键字数 n： n = (m-1) × (1 + m + m² + ... + mʰ⁻¹) = (m-1) × (mʰ - 1)/(m - 1) [等比数列求和公式] = mʰ - 1

解得最小高度： mʰ = n + 1 h = logₘ(n + 1)

注意：这个 h 是树的层数（根在第 1 层），不是通常说的树高（边数）。

最大高度 hₘₐₓ 推导

前提条件：为了最大化高度，每个节点尽可能空

根节点：最少 1 个关键字，2 个子树
非根节点：最少 ⌈m/2⌉ 个子树，⌈m/2⌉ - 1 个关键字

关键定义：设最小度数 t = ⌈m/2⌉，则：

根节点：最少 2 个子树（t ≥ 2）
非根节点：最少 t 个子树，t-1 个关键字

推导过程（基于叶子节点数）：定理：n 个关键字的 B-树有 n+1 个叶子节点第 1 层（根）：1 个节点，最少 2 个子树第 2 层：最少 2 个节点第 3 层：每个第 2 层节点最少 t 个子树 → 最少 2t 个节点第 4 层：最少 2t² 个节点 ... 第 h 层（叶子层）：最少 2tʰ⁻² 个节点

总叶子节点数：叶子数 = 2 × tʰ⁻² ≥ n + 1

解得最大高度： tʰ⁻² ≥ (n + 1)/2 h - 2 ≥ logₜ[(n + 1)/2] h ≤ logₜ[(n + 1)/2] + 2

当然也可以算出关键字的总个数来求解：上面我们已经知道每层的结点个数，然后我们知道根结点最少一个关键字，其它结点最少 k-1 个关键字，k 最小是 ceil(m/2) 那么第一层就是 1 个关键字，第二层往后就是该层的节点个数*每个结点的最小关键字个数 (k-1)

最大高度推导图

那么因此就有 n=1+2(kh-1-1）同样解得最大高度：

最大高度公式

当 m=2 时（B-树退化为二叉搜索树）：

t = ⌈2/2⌉ = 2
最小高度：log₂(n+1)-1 ≈ log₂n
最大高度：log₂((n+1)/2)+1 ≈ log₂n
两者相等，即平衡二叉树

实际公式需要向上取整： hₘᵢₙ = ⌈logₘ(n+1)⌉ - 1 hₘₐₓ = ⌈logₜ((n+1)/2)⌉ + 1

7. B 树的性能

B 树性能对比

8. B 树的简单验证（中序遍历）

B 树呢也是搜索树，同样满足左子树<根<右子树，那我们可以对它进行一个验证，看中序遍历是否能得到一个有序序列。

那下面我们就来实现一下 B 树的中序遍历：我们还是来搞一个图对照着分析一下思路：

中序遍历示意图

就拿这个来分析：对于我们之前学的二叉树来说中序遍历的思想是：左子树、根、右子树。那 B-树的话它可能是一个多叉的，那它的中序遍历应该怎么走呢？

首先肯定还是先访问左子树，搜索树中最左的结点一定是最小的。最左结点

当然如果算上空结点的话最左的应该是空，左子树，然后依然是根，就是 36，36 就是最小的，没问题。左子树、根，那然后呢？是 36 的右子树吗？可以认为是 36 的右子树，但是我们要把它当作 40 的左孩子看。36 这个关键字访问完，就走到后面的 40，对于 40，同样是先左子树，再根。访问 40

那这个第二个访问到的元素就是 40，此时当前结点所有的关键字访问完了，最后再去访问最后一个关键字的右子树：访问右子树

此时整个结点才被访问完。那此时就相当于是 49 的左子树访问完了，然后访问根 49，后面就是一样的处理… 继续遍历继续遍历 2

所以 B-树的中序遍历是怎么样的呢？左子树、根；（下一个关键字的）左子树、根；（再下一个）左子树、根；…(一直往后直至走完最后一个关键字）；右子树（最后一个关键字的右子树）左根左根 … 右

目录

1. 常见的搜索结构
2. 问题提出
3. B 树的概念
4. B 树的插入分析
5. B 树的删除（思想）
6. B 树的高度
最小高度 hₘᵢₙ 推导
最大高度 hₘₐₓ 推导
7. B 树的性能
8. B 树的简单验证（中序遍历）

💰 8折买阿里云服务器限时8折了解详情

Magick API 一键接入全球大模型注册送1000万token查看
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

环形链表检测、数组交集与随机链表深拷贝实战
Ubuntu 部署 OpenClaw 并接入飞书机器人
OpenClaw 多机器人团队协作配置指南
元迁移学习：快速适应新任务的方法与原理
Dify 集成 MySQL 实战：基于 MCP 协议的数据查询方案
DrugCLIP 网页版使用指南：蛋白与配体匹配筛选
Cursor Chat Browser：浏览和管理 Cursor AI 聊天历史的 Web 应用
医疗 AI 可信系统全栈实现：向量索引与贝叶斯网络（下）
金仓 KingbaseES 融合架构实践：从多库并存到一库多能
Java 异常处理：try-with-resources 自动关闭资源详解
C++高性能事件循环库libev封装实战
文心一言 4.5 开源评测与本地部署实践
Layui 框架下 Unity WebGL 切换 Tab 导致黑屏的解决方案
编写第一个 Rocket 0.5 Web 应用
Eclipse IDE Java 注解处理器 AnnotationMirror 示例
基于 LLM 的智能运维 Agent 系统设计与实现
Java Lambda 和匿名内部类为何不能修改外部变量？final 与等效 final 解析
Meta-Llama-3-8B-Instruct 部署常见问题与解决方案
OpenClaw 配置 GLM-4.7 Flash 与 DuckDuckGo 实现飞书机器人联网问答
FPGA入门：CAN总线原理与Verilog代码详解

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online