基于 llama.cpp 的本地大模型部署教程
本教程适用于 Windows WSL2 环境。
一、环境准备
1. 硬件要求
| 显卡 | 推荐模型 | 显存占用 |
|---|---|---|
| GTX 1050 Ti (4GB) | Qwen2.5-3B Q4 | ~2.5GB |
| RTX 4060 (8GB) | Qwen2.5-7B Q4 | ~5GB |
| RTX 4090 (24GB) | Qwen2.5-32B Q4 | ~20GB |
2. 安装编译工具(WSL Ubuntu)
sudo apt update
sudo apt install -y cmake build-essential
二、下载和编译 llama.cpp
1. 克隆源码
mkdir -p ~/llama.cpp
cd ~/llama.cpp
git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src
2. 编译
cd ~/llama.cpp/src
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc) llama-cli llama-server
编译完成后,可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。
三、下载模型
1. 创建模型目录
mkdir -p ~/llama.cpp/models
2. 下载 GGUF 模型(使用国内镜像加速)
Qwen2.5-3B(适合 4GB 显存):
curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf "https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"
Qwen2.5-7B(适合 8GB 显存):
curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf "https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"


