详解数据结构之跳表

文章配图

跳表的定义

跳表是由 William Pugh(音译为威廉·普) 发明的，最早出现于他在 1990 年发表的论文《Skip Lists: A Probabilistic Alternative to Balanced Trees》，跳表全称为跳跃列表，它允许快速查询、插入和删除一个有序连续元素的数据链表。

跳表的演化过程

对于单链表来说，即使数据是已经排好序的，想要查询其中的一个数据，只能从头开始遍历链表，这样效率很低，时间复杂度很高，是 O(n)，如下图所示。

文章配图

那我们有没有什么办法来提高查询的效率呢？我们可以为链表建立一个'索引'，这样查找起来就会更快，如下图所示，我们在原始链表的基础上，每两个结点提取一个结点建立索引，我们把抽取出来的结点叫作索引层或者索引，down 表示指向原始链表节点的指针。

文章配图

现在如果我们想查找一个数据，比如说 15，我们首先在索引层遍历，当我们遍历到索引层中值为 14 的结点时，我们发现下一个结点的值为 17，所以我们要找的 15 肯定在这两个结点之间。这时我们就通过 14 结点的 down 指针，回到原始链表，然后继续遍历，这个时候我们只需要再遍历两个结点，就能找到我们想要的数据。好我们从头看一下，整个过程我们一共遍历了 7 个结点就找到我们想要的值，如果没有建立索引层，而是用原始链表的话，我们需要遍历 10 个节点。

通过这个例子我们可以看出来，通过建立一个索引层，我们查找一个基点需要遍历的次数变少了，也就是查询的效率提高了。

那么如果我们给索引层再加一层索引呢？遍历的节点会不会更少呢，效率会不会更高呢？我们试试就知道了。

文章配图

现在我们再来查找 15，我们从第二级索引开始，最后找到 15，一共遍历了 6 个节点，果然效率更高。

当然，因为我们举的这个例子数据量很小，所以效率提升的不是特别明显，如果数据量非常大的时候，我们多建立几层索引，效率提升的将会非常的明显，感兴趣的可以自己试一下，这里我们就不举例子了。

这种通过对链表加多级索引的机构，就是跳表了。

跳表的优化思路

实际上，按照上面生成链表的方式，上面每一层链表的节点个数，是下面一层的节点个数的一半，这样查找过程就非常类似二分查找，使得查找的时间复杂度可以降低到 O(log n)。但是这个结构在插入删除数据的时候有很大的问题，插入或者删除一个节点之后，就会打乱上下相邻两层链表上节点个数严格的 2:1 的对应关系。如果要维持这种对应关系，就必须把新插入的节点后面的所有节点（也包括新插入的节点）重新进行调整，这会让时间复杂度重新蜕化成 O(n)。

文章配图

skiplist 的设计为了避免这种问题，做了一个大胆的处理，不再严格要求对应比例关系，而是插入一个节点的时候随机出一个层数。这样每次插入和删除都不需要考虑其他节点的层数，这样就好处理多了。细节过程如下图所示：

struct SkiplistNode { int _val; vector<SkiplistNode*> _nextV; SkiplistNode(int val, int level) :_val(val), _nextV(level, nullptr) {} }; class Skiplist { typedef SkiplistNode Node; public: Skiplist() { srand(time(0)); _head = new Node(-1, 1); } bool search(int target) { Node* cur = _head; int level = _head->_nextV.size() - 1; while (level >= 0) { if (cur->_nextV[level] && cur->_nextV[level]->_val < target) cur = cur->_nextV[level]; else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val > target) --level; else return true; } return false; } void add(int num) { vector<Node*> prevV = FindPrevNode(num); int n = RandomLevel(); Node* newNode = new Node(num, n); if (n > _head->_nextV.size()) { _head->_nextV.resize(n, nullptr); prevV.resize(n, _head); } for (size_t i = 0; i < n; i++) { newNode->_nextV[i] = prevV[i]->_nextV[i]; prevV[i]->_nextV[i] = newNode; } } bool erase(int num) { vector<Node*> prevV = FindPrevNode(num); if (prevV[0]->_nextV[0] == nullptr || prevV[0]->_nextV[0]->_val != num) return false; else { Node* del = prevV[0]->_nextV[0]; for (size_t i = 0; i < del->_nextV.size(); i++) { prevV[i]->_nextV[i] = del->_nextV[i]; } delete del; int x = _head->_nextV.size() - 1; while (x >= 0) { if (_head->_nextV[x] == nullptr) --x; else break; } _head->_nextV.resize(x + 1); return true; } } vector<Node*> FindPrevNode(int num) { Node* cur = _head; int level = _head->_nextV.size() - 1; vector<Node*> prevV(level + 1, _head); while (level >= 0) { if (cur->_nextV[level] && cur->_nextV[level]->_val < num) cur = cur->_nextV[level]; else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val >= num) { prevV[level] = cur; --level; } } return prevV; } int RandomLevel() { size_t level = 1; while (rand() <= RAND_MAX * _p && level < _maxLevel) { ++level; } return level; } private: Node* _head; int _maxLevel = 32; double _p = 0.25; };

详解数据结构之跳表

跳表的定义

跳表的演化过程

跳表的优化思路

更多推荐文章

相关免费在线工具

跳表如何保证效率

跳表的时间复杂度

跳表的空间复杂度

跳表的查找

跳表的插入

跳表的删除

跳表的模拟实现

跳表与平衡搜索树及哈希表的对比

更多推荐文章

相关免费在线工具

详解数据结构之跳表

跳表的定义

跳表的演化过程

跳表的优化思路

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

跳表如何保证效率

跳表的时间复杂度

跳表的空间复杂度

跳表的查找

跳表的插入

跳表的删除

跳表的模拟实现

跳表与平衡搜索树及哈希表的对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具