突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析 | 极客日志

C++AI算法

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

综述由AI生成解析了 llama.cpp 项目中针对大模型推理内存瓶颈的 KV 缓存优化策略。介绍了 KV 缓存的基本原理及其在降低 Transformer 注意力计算复杂度中的作用。详细阐述了 llama.cpp 的核心架构设计，包括动态内存管理、分层设备卸载（offload）以及滑动窗口注意力（SWA）支持。同时提供了实践调优指南，涵盖缓存大小配置、SWA 参数调整及调试监控方法，帮助开发者平衡推理速度与内存占用。

赛博行者发布于 2026/4/6更新于 2026/5/2235 浏览

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

你是否曾因大模型推理时的内存占用过高而困扰？是否遇到过长对话场景下模型响应速度骤降的问题？本文将深入解析 llama.cpp 项目中 KV 缓存（键值缓存，Key-Value Cache）的优化策略，带你一文掌握如何通过缓存机制提升模型推理效率，降低内存消耗。读完本文，你将了解 KV 缓存的工作原理、llama.cpp 中的创新优化方案以及实际应用中的调优技巧。

KV 缓存：大模型推理的性能关键

在 Transformer 架构中，注意力机制（Attention Mechanism）是模型性能的核心，但同时也带来了巨大的计算开销。每次推理时，模型需要对输入序列中的每个位置计算与其他所有位置的注意力分数，这一过程的时间复杂度为 O(n²)，其中 n 是序列长度。当处理长文本时，这种计算开销会急剧增加，严重影响推理速度。

KV 缓存技术通过存储注意力计算过程中的中间结果——键（Key）和值（Value）矩阵，避免了重复计算，从而显著提升推理效率。具体来说，在 autoregressive 推理（自回归推理）中，模型每次生成一个新的 token 时，只需要计算当前 token 与之前所有 token 的注意力分数。通过缓存之前计算过的 Key 和 Value 矩阵，模型可以直接复用这些结果，将每次推理的计算复杂度从 O(n²) 降低到 O(n)。

图 1：KV 缓存工作原理示意图，展示了注意力计算中 Key 和 Value 矩阵的复用过程。

llama.cpp 作为 Facebook LLaMA 模型的 C/C++ 移植版本，在 KV 缓存优化方面做了大量工作。项目中负责 KV 缓存实现的核心文件包括：

src/llama-kv-cache.h: KV 缓存类的头文件，定义了缓存的结构和接口。
src/llama-kv-cache.cpp: KV 缓存的主要实现，包括缓存的创建、更新和管理。
src/llama-kv-cache-iswa.h: 集成 SWA（Sliding Window Attention）的 KV 缓存头文件。
src/llama-kv-cache-iswa.cpp: SWA KV 缓存的实现，支持滑动窗口注意力机制。

基础架构：llama.cpp 的 KV 缓存设计

llama.cpp 中的 KV 缓存系统以 llama_kv_cache 类为核心，采用了灵活的分层设计，能够适应不同的模型架构和硬件环境。

核心数据结构

在 llama_kv_cache 类中，最关键的数据结构是 kv_layer 结构体，用于存储每一层的 Key 和 Value 缓存张量：

struct kv_layer {
    // 模型中的层索引
    uint32_t il;
    // Key 缓存张量
    ggml_tensor * k;
    // Value 缓存张量
    ggml_tensor * v;
    // 按流划分的 Key 缓存视图
    std::vector<ggml_tensor *> k_stream;
    // 按流划分的 Value 缓存视图
    std::vector<ggml_tensor *> v_stream;
};

每个 kv_layer 对应模型中的一个 Transformer 层，包含了该层的 Key 和 Value 缓存。为了支持多序列并行推理，llama.cpp 引入了'流（stream）'的概念，将缓存划分为多个独立的流，每个流可以独立存储和访问不同序列的 KV 数据。这种设计使得模型能够同时处理多个输入序列，提高了硬件利用率。

缓存初始化与内存分配

KV 缓存的初始化过程在 llama_kv_cache 的构造函数中完成。该函数根据模型配置、量化类型和硬件设备等参数，创建并分配 KV 缓存的内存空间：

llama_kv_cache::llama_kv_cache(
     llama_model & model,
    ggml_type type_k, ggml_type type_v,
     v_trans,  offload,  unified,
     kv_size,  n_seq_max,  n_pad,
     n_swa, llama_swa_type swa_type,
     layer_filter_cb & filter,
     layer_reuse_cb & reuse)
: (model), (model.hparams), (v_trans),
  (n_seq_max), (unified ?  : n_seq_max),
  (n_pad), (n_swa), (swa_type) { 
    
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

LLAMA_LOG_INFO("%s: size = %7.2f MiB (%6u cells, %3d layers, %2u/%u seqs), K (%s): %7.2f MiB, V (%s): %7.2f MiB\n",
    __func__, (float)(memory_size_k + memory_size_v) / (1024.0f * 1024.0f),
    kv_size, (int) layers.size(), n_seq_max, n_stream,
    ggml_type_name(type_k), (float)memory_size_k / (1024.0f * 1024.0f),
    ggml_type_name(type_v), (float)memory_size_v / (1024.0f * 1024.0f));

bool llama_kv_cache::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos p1) {
    GGML_ASSERT(seq_id == -1 || (seq_id >= 0 && (size_t) seq_id < seq_to_stream.size()));
    if (p0 < 0) { p0 = 0; }
    if (p1 < 0) { p1 = std::numeric_limits<llama_pos>::max(); }
    if (seq_id >= 0) {
        auto & cells = v_cells[seq_to_stream[seq_id]];
        auto & head = v_heads[seq_to_stream[seq_id]];
        uint32_t new_head = cells.size();
        for (uint32_t i = 0; i < cells.size(); ++i) {
            if (!cells.pos_in(i, p0, p1)) { continue; }
            if (cells.seq_has(i, seq_id) && cells.seq_rm(i, seq_id)) {
                if (new_head == cells.size()) { new_head = i; }
            }
        }
        // 如果释放了插槽，更新 head 以便下次从这里开始搜索
        if (new_head != cells.size() && new_head < head) { head = new_head; }
    } else {
        // 匹配所有序列
        // ... 代码省略 ...
    }
    return true;
}

ggml_backend_buffer_type_t buft = ggml_backend_cpu_buffer_type();
if (offload) {
    auto * dev = model.dev_layer(il);
    buft = ggml_backend_dev_buffer_type(dev);
    dev_name = ggml_backend_dev_name(dev);
}
LLAMA_LOG_DEBUG("%s: layer %3d: dev = %s\n", __func__, il, dev_name);

llama_kv_cache_iswa::llama_kv_cache_iswa(
    const llama_model & model, ggml_type type_k, ggml_type type_v,
    bool v_trans, bool offload, bool swa_full, bool unified,
    uint32_t kv_size, uint32_t n_seq_max, uint32_t n_ubatch,
    uint32_t n_pad, const layer_filter_cb & filter,
    const layer_reuse_cb & reuse)
: hparams(model.hparams), unified(unified) {
    // 创建非 SWA 层的 KV 缓存
    kv_base = std::make_unique<llama_kv_cache>(
        model, type_k, type_v, v_trans, offload, unified,
        size_base, n_seq_max, n_pad, 0, LLAMA_SWA_TYPE_NONE, filter_base, reuse);
    // 创建 SWA 层的 KV 缓存
    kv_swa = std::make_unique<llama_kv_cache>(
        model, type_k, type_v, v_trans, offload, unified,
        size_swa, n_seq_max, n_pad, hparams.n_swa, hparams.swa_type, filter_swa, reuse);
}

void llama_kv_cache::seq_cp(llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) {
    GGML_ASSERT(seq_id_src >= 0 && (size_t) seq_id_src < seq_to_stream.size());
    GGML_ASSERT(seq_id_dst >= 0 && (size_t) seq_id_dst < seq_to_stream.size());
    const auto s0 = seq_to_stream[seq_id_src];
    const auto s1 = seq_to_stream[seq_id_dst];
    if (s0 == s1) {
        // 同一流内的复制，只需更新元数据
        // ... 代码省略 ...
    } else {
        // 跨流复制，需要复制实际数据
        // ... 代码省略 ...
    }
}

bool llama_kv_cache::update(llama_context * lctx, bool do_shift, const stream_copy_info & sc_info) {
    bool updated = false;
    // 处理流复制操作
    // ... 代码省略 ...
    if (do_shift) {
        if (!get_can_shift()) {
            GGML_ABORT("The current KV cache / model configuration does not support K-shift");
        }
        LLAMA_LOG_DEBUG("%s: applying K-shift\n", __func__);
        // 应用 K-shift
        if (hparams.rope_type != LLAMA_ROPE_TYPE_NONE) {
            ggml_backend_sched_reset(sched);
            auto * res = lctx->get_gf_res_reserve();
            res->reset();
            auto * gf = build_graph_shift(res, lctx);
            if (!ggml_backend_sched_alloc_graph(sched, gf)) {
                LLAMA_LOG_ERROR("%s: failed to allocate compute graph for K-shift\n", __func__);
                return updated;
            }
            res->set_inputs(nullptr);
            if (lctx->graph_compute(gf, false) != GGML_STATUS_SUCCESS) {
                LLAMA_LOG_ERROR("%s: failed to compute K-shift\n", __func__);
                return updated;
            }
            updated = true;
        }
        // 重置 shift 状态
        for (uint32_t s = 0; s < n_stream; ++s) {
            auto & cells = v_cells[s];
            cells.reset_shift();
        }
    }
    return updated;
}

./main -m models/7B/ggml-model-q4_0.bin -p "Hello world" --kvsize 2048

llama_kv_cache_init: size = 256.00 MiB ( 4096 cells, 32 layers, 1/1 seqs), K (f16): 128.00 MiB, V (f16): 128.00 MiB

./main -m models/7B/ggml-model-q4_0.bin --swa-window 512

环境变量 LLAMA_KV_CACHE_DEBUG：设置该变量可以启用 KV 缓存的调试日志。例如：
```
export LLAMA_KV_CACHE_DEBUG=1
./main -m models/7B/ggml-model-q4_0.bin -p "Hello world"
```
启用调试后，llama.cpp 会打印详细的 KV 缓存操作日志，包括缓存的分配、更新和释放等信息。

缓存使用统计：通过 llama_kv_cache::memory_breakdown 函数可以获取不同设备上 KV 缓存的内存占用情况：

std::map<ggml_backend_buffer_type_t, size_t> llama_kv_cache::memory_breakdown() const {
    std::map<ggml_backend_buffer_type_t, size_t> ret;
    for (const ggml_backend_buffer_ptr & buf_ptr : bufs) {
        ret[ggml_backend_buffer_get_type(buf_ptr.get())] += ggml_backend_buffer_get_size(buf_ptr.get());
    }
    return ret;
}

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

KV 缓存：大模型推理的性能关键

基础架构：llama.cpp 的 KV 缓存设计

核心数据结构

缓存初始化与内存分配

更多推荐文章

相关免费在线工具

缓存大小计算

创新优化：llama.cpp 的 KV 缓存策略

1. 动态内存管理与缓存复用

2. 分层 KV 缓存与设备卸载

3. 滑动窗口注意力（SWA）支持

高级特性：KV 缓存的动态管理

序列复制与状态迁移

K-shift：缓存的高效更新

实践指南：KV 缓存的调优与应用

缓存大小配置

SWA 参数调优

监控与调试

总结与展望

更多推荐文章

相关免费在线工具

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

突破内存瓶颈：llama.cpp 项目中 KV 缓存优化策略全解析

KV 缓存：大模型推理的性能关键

基础架构：llama.cpp 的 KV 缓存设计

核心数据结构

缓存初始化与内存分配

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

缓存大小计算

创新优化：llama.cpp 的 KV 缓存策略

1. 动态内存管理与缓存复用

2. 分层 KV 缓存与设备卸载

3. 滑动窗口注意力（SWA）支持

高级特性：KV 缓存的动态管理

序列复制与状态迁移

K-shift：缓存的高效更新

实践指南：KV 缓存的调优与应用

缓存大小配置

SWA 参数调优

监控与调试

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具