RocksDB 在鲲鹏架构下的性能优化源码解析 | 极客日志

C++算法

RocksDB 在鲲鹏架构下的性能优化源码解析

综述由AI生成RocksDB 在鲲鹏 ARM64 架构下存在指令集、内存模型及流水线适配问题。通过 BoostKit 源码解析，介绍了利用 ARM64 NEON/SVE 指令集实现 CRC32C 三路并行计算，集成 KAE 硬件加速引擎卸载压缩任务，以及自适应预取、Sub-compaction 并行化等 I/O 优化策略。此外，还涵盖了 NUMA 亲和性调优、无锁 MemTable 及分片 Block Cache 设计，旨在消除多核锁竞争，提升存储引擎在高并发场景下的吞吐量与稳定性。

RustyLab发布于 2026/3/29更新于 2026/5/3126 浏览

1. 引言与架构总览

RocksDB 作为 Meta (Facebook) 开源的高性能 KV 存储引擎，基于 LSM-Tree (Log-Structured Merge Tree) 架构，被广泛应用于各类数据库（如 CockroachDB, TiKV）和流计算引擎（如 Flink）的底层存储。然而，在从 x86 迁移到 ARM64（鲲鹏）架构的过程中，原生的 RocksDB 往往面临着'水土不服'的问题：

指令集差异：x86 依赖 SSE4.2/AVX 指令集加速 CRC32 和内存操作，而 ARM64 需要特定的 NEON 和 Crypto 扩展。
内存模型差异：ARM64 采用弱内存模型（Weak Memory Model），对锁和原子操作的实现要求更为严苛，稍有不慎就会导致性能大幅回退。
流水线特性：鲲鹏 920 处理器拥有独特的流水线和缓存层级，通用的代码无法充分利用其 ILP（指令级并行）能力。

BoostKit for RocksDB 正是为了解决这些问题而生。通过深入源码层面的剖析，我们来看看 BoostKit 是如何通过指令级优化、硬件加速和算法改良，将 RocksDB 在鲲鹏上的性能提升到极致的。

2. 算力释放：ARM64 指令集与硬件加速

在存储系统中，计算密集型任务（如校验和压缩）往往是 CPU 的瓶颈所在。本章深入探讨如何利用 ARM64 指令集和鲲鹏硬件加速引擎来释放算力。

2.1 CRC32C 的指令级流水线重构

在 RocksDB 中，CRC32C（循环冗余校验）无处不在。无论是 WAL (Write Ahead Log) 的写入，还是 SST 文件的读取，每一条记录都需要进行校验。

2.1.1 源码定位

头文件: rocksdb-main/util/crc32c_arm64.h
实现文件: rocksdb-main/util/crc32c_arm64.cc

2.1.2 优化原理：从串行到三路并行

原生 ARM64 的 __crc32c 指令虽然比软件查表快，但单条指令的延迟仍然存在。为了榨干鲲鹏 CPU 的流水线性能，引入了三路并行（3-Way Parallel）计算策略。

/* unfolding to compute 8 * 3 = 24 bytes parallelly */ 
#define CRC32C24BYTES(ITR) \
 crc1 = crc32c_u64(crc1, *(buf64 + BLK_LENGTH + (ITR))); \
 crc2 = crc32c_u64(crc2, *(buf64 + BLK_LENGTH * 2 + (ITR))); \
 crc0 = crc32c_u64(crc0, *(buf64 + (ITR)));

代码解读：

数据分块：输入数据被逻辑上分为三段（Block 0, Block 1, Block 2）。
独立计算：crc0, crc1, crc2 三个寄存器分别维护三段数据的校验值。
指令并行：由于 crc0, crc1, crc2 之间没有数据依赖（Data Dependency），鲲鹏 920 的超标量乱序执行引擎可以同时发射这三条指令，极大地提升了 IPC。

示例代码：

#include <iostream>
#include <cstdint>


{
    
    crc ^= ()val;
     ( i = ; i < ; i++)
        crc = (crc >> ) ^ ( & -(crc & ));
     crc;
}
{
    ;
     crc0 = , crc1 = , crc2 = ;
     ( i = ; i < ; i++) {
        crc0 = (crc0, buf64[i]);
        crc1 = (crc1, buf64[i + ]);
        crc2 = (crc2, buf64[i + ]);
    }
    std::cout <<  << crc0 << ;
    std::cout <<  << crc1 << ;
    std::cout <<  << crc2 << ;
     ;
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

#define PREF4X64L1(buffer, PREF_OFFSET, ITR) \
 __asm__("PRFM PLDL1KEEP, [%x[v],%[c]]" ::[v] "r"(buffer), \
 [c] "I"((PREF_OFFSET) + ((ITR) + 0) * 64));

#include <iostream>
#include <zlib.h>
#include <vector>
#include <chrono>
#include <string>
int main() {
    // 模拟较大数据块（1 MB）
    std::vector<unsigned char> input(1024 * 1024, 'A');
    std::vector<unsigned char> compressed(input.size() * 2);
    std::vector<unsigned char> decompressed(input.size());
    uLongf compressed_size, decompressed_size;
    // 压缩测试
    auto start = std::chrono::high_resolution_clock::now();
    compressed_size = compressed.size();
    int ret = compress(compressed.data(), &compressed_size, input.data(), input.size());
    auto end = std::chrono::high_resolution_clock::now();
    double compress_ms = std::chrono::duration<double, std::milli>(end - start).count();
    if (ret == Z_OK) {
        std::cout << "Compression succeeded, size: " << compressed_size << ", time: " << compress_ms << " ms" << std::endl;
    } else {
        std::cout << "Compression failed, error: " << ret << std::endl;
    }
    // 解压测试
    start = std::chrono::high_resolution_clock::now();
    decompressed_size = decompressed.size();
    ret = uncompress(decompressed.data(), &decompressed_size, compressed.data(), compressed_size);
    end = std::chrono::high_resolution_clock::now();
    double decompress_ms = std::chrono::duration<double, std::milli>(end - start).count();
    if (ret == Z_OK) {
        std::cout << "Decompression succeeded, size: " << decompressed_size << ", time: " << decompress_ms << " ms" << std::endl;
    } else {
        std::cout << "Decompression failed, error: " << ret << std::endl;
    }
    // 验证内容一致
    bool valid = (input == decompressed);
    std::cout << "Data verification: " << (valid ? "PASS" : "FAIL") << std::endl;
    return 0;
}

readahead_limit_ = offset + len + readahead_size_; // Keep exponentially increasing readahead size until // max_auto_readahead_size. 
readahead_size_ = std::min(max_auto_readahead_size, readahead_size_ * 2);

#include <rocksdb/db.h>
#include <rocksdb/options.h>
#include <rocksdb/slice.h>
#include <iostream>
int main() {
    rocksdb::DB* db;
    rocksdb::Options options;
    options.create_if_missing = true;
    rocksdb::Status s = rocksdb::DB::Open(options, "/tmp/rocksdb_test", &db);
    if (!s.ok()) {
        std::cerr << s.ToString() << std::endl;
        return -1;
    }
    // 写入顺序数据
    for (int i = 0; i < 1000000; ++i) {
        db->Put(rocksdb::WriteOptions(), "key" + std::to_string(i), std::string(1024, 'A'));
    }
    // 顺序 Scan
    rocksdb::ReadOptions ro;
    ro.fill_cache = false; // 强制走 I/O 路径
    auto it = db->NewIterator(ro);
    for (it->SeekToFirst(); it->Valid(); it->Next()) {
        // 只访问，不处理
    }
    delete it;
    delete db;
    return 0;
}

void CompactionJob::GenSubcompactionBoundaries() {
    // 1. 采样：对每个输入文件获取锚点 (Anchor Points)
    // 2. 排序与去重：汇总所有锚点
    // 3. 划分：根据总数据量和目标分片数，计算边界 Key
    // ...
}

rocksdb::Options options;
options.create_if_missing = true;
// 开启并行 Compaction
options.max_background_jobs = 32;
options.max_subcompactions = 16; // 写放大明显的参数
options.level0_file_num_compaction_trigger = 4;
options.write_buffer_size = 64 * 1024 * 1024;

template <bool UseCAS> bool InlineSkipList<Comparator>::Insert(...) {
    if (UseCAS) {
        while (true) {
            // 核心逻辑：使用 CAS 更新 next 指针
            if (splice->prev_[i]->CASNext(i, splice->next_[i], x)) {
                break; // 插入成功
            }
            // CAS 失败，重试
        }
    }
}

options.allow_concurrent_memtable_write = true;
options.enable_pipelined_write = true;

// 根据 Key 的 Hash 值定位 Shard
int shard_id = Shard(hash);
return shards_[shard_id]->Insert(key, hash, value, ...);

// num_shard_bits = 6
std::shared_ptr<Cache> cache = NewLRUCache(capacity, -1, false, 0.5, nullptr, 6);

RocksDB 在鲲鹏架构下的性能优化源码解析

1. 引言与架构总览

2. 算力释放：ARM64 指令集与硬件加速

2.1 CRC32C 的指令级流水线重构

2.1.1 源码定位

2.1.2 优化原理：从串行到三路并行

更多推荐文章

相关免费在线工具

2.1.3 PMULL 与硬件预取

2.2 KAE 硬件压缩集成

2.2.1 集成原理

2.2.2 部署与收益

3. 存储引擎内核：LSM-Tree 与 I/O 极致优化

3.1 block_prefetcher.cc 源码解析

3.2 LSM-Tree 的多线程并发 Compaction

3.2.1 Sub-compaction 并行化

3.3 鲲鹏亲和性调优 (NUMA)

4. 并发与缓存：多核架构下的锁竞争消除

4.1 无锁并发 MemTable

4.1.1 CAS 实现 (`memtable/inlineskiplist.h`)

4.1.2 开启配置

4.2 Block Cache 的分片 (Sharding)

4.2.1 源码解读 (`cache/sharded_cache.cc`)

4.2.2 调优建议

5. 总结

更多推荐文章

相关免费在线工具

RocksDB 在鲲鹏架构下的性能优化源码解析

1. 引言与架构总览

2. 算力释放：ARM64 指令集与硬件加速

2.1 CRC32C 的指令级流水线重构

2.1.1 源码定位

2.1.2 优化原理：从串行到三路并行

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1.3 PMULL 与硬件预取

2.2 KAE 硬件压缩集成

2.2.1 集成原理

2.2.2 部署与收益

3. 存储引擎内核：LSM-Tree 与 I/O 极致优化

3.1 block_prefetcher.cc 源码解析

3.2 LSM-Tree 的多线程并发 Compaction

3.2.1 Sub-compaction 并行化

3.3 鲲鹏亲和性调优 (NUMA)

4. 并发与缓存：多核架构下的锁竞争消除

4.1 无锁并发 MemTable

4.1.1 CAS 实现 (memtable/inlineskiplist.h)

4.1.2 开启配置

4.2 Block Cache 的分片 (Sharding)

4.2.1 源码解读 (cache/sharded_cache.cc)

4.2.2 调优建议

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.1.1 CAS 实现 (`memtable/inlineskiplist.h`)

4.2.1 源码解读 (`cache/sharded_cache.cc`)