Llama.cpp 部署教程：老旧电脑运行大模型方案 | 极客日志

C++AI算法

Llama.cpp 部署教程：老旧电脑运行大模型方案

介绍如何在老旧电脑上通过 llama.cpp 部署大模型。涵盖硬件配置要求、GGUF 模型选型、免编译一键部署及源码编译优化两种方案。包含参数调优、常见问题排查及性能测试方法，帮助低配设备实现本地大模型推理。

DevStack发布于 2026/4/6更新于 2026/7/2358 浏览

概述

本教程专为低配置设备打造，通过 llama.cpp 工具将大模型运行门槛压到极致。llama.cpp 是目前主流的轻量化推理框架，核心优势在于纯 CPU 优化、极低内存占用及 GGUF 高效模型格式。教程区分「简易免编译版」和「进阶优化版」，帮助用户完成本地部署。

一、前置准备与核心认知

1.1 最低硬件配置要求

硬件类型	绝对最低门槛（能跑）	推荐配置（流畅）
处理器	Intel Core 2 Duo E8400 / AMD Athlon II X2 250	Intel i3-4130 / AMD FX-6300 及以上
内存	4GB（需关闭其他软件）	8GB（可同时开浏览器）
硬盘	10GB 可用空间（机械硬盘）	10GB 可用空间（SSD 优先）

注意：这里的「能跑」指 1B-2B 参数模型可生成对话，「流畅」指 3B 模型响应时间在 5-10 秒内。

1.2 核心基础认知

llama.cpp 是什么：用 C++ 重写的 LLaMA 系列模型推理框架，专门优化 CPU 推理。
为什么能极致轻量化：通过模型量化（把 32 位浮点数压缩成 4 位/8 位整数）、CPU 指令集优化（AVX/AVX2 等）、内存高效管理，降低内存占用 75% 以上。
GGUF 模型格式：替代旧版 GGML 的新格式，支持更多模型结构，是 llama.cpp 的标准格式。
适配的模型范围：LLaMA/LLaMA 2、Mistral、Phi、TinyLLaMA、Qwen 等主流开源模型，只要有 GGUF 版本就能用。

1.3 老旧设备专属模型选型指南

选对模型是关键，优先选小参数量 + 中低量化等级的模型：

模型推荐	参数量	量化等级	内存占用	运行效果	适配设备年限
TinyLLaMA-1.1B-Chat	1.1B	Q4_K_M	~600MB	简单对话、常识问答	10 年以上老旧电脑
Phi-2-2.7B-Chat	2.7B	Q4_K_M	~1.8GB	逻辑推理、代码片段	8 年以内办公本
Mistral-7B-Instruct-v0.2	7B	Q3_K_S	~3GB	复杂对话、长文本理解	5 年以内/8GB 内存设备

建议去 Hugging Face 搜「TheBloke/模型名-GGUF」，该作者会上传全量化等级的 GGUF 模型。

1.4 前置环境准备

全平台基础环境

Git（可选，进阶编译用）：用于克隆 llama.cpp 源码，新手极简版可跳过。
CMake（可选，进阶编译用）：编译工具，新手极简版可跳过。

分平台环境安装

Windows：
- 新手极简版：无需额外安装。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

打开 llama.cpp 文件夹，找到 main.exe。
按住 Shift 键，在文件夹空白处右键，选择「在此处打开 PowerShell 窗口」。输入以下命令并回车：
```
.\main.exe -m .\models\tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --mlock
```
（参数说明：-t 4 是用 4 个线程，根据你的 CPU 核心数改；-c 512 是上下文长度，减少内存；--mlock 是锁定内存避免卡顿。）

chmod +x main

cd ~/llama.cpp

./main -m ./models/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --mlock

> 你好，介绍一下你自己。

（`-DLLAMA_NATIVE=ON` 会自动优化你的 CPU 指令集，性能提升 10%-20%。）
3. 编译好的工具在 `build\bin\Release` 文件夹里。

##### Linux：

1. 克隆源码并进入目录：
```bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

（`-j4` 是用 4 个线程编译，根据你的 CPU 核心数改。）
3. 编译好的工具在 `build/bin` 文件夹里。

##### Mac：

1. 克隆源码并进入目录：
```bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

3. 编译好的工具在 `build/bin` 文件夹里。

#### 3.2 模型转换与 GGUF 格式适配

如果你有自己的 PyTorch 模型（比如微调后的 Qwen），可以转成 GGUF：

转换模型（以 Q4_K_M 量化为例）：
```python
python convert.py /path/to/your/pytorch_model --outtype q4_k_m --outfile /path/to/output.gguf

pip install -r requirements.txt

参数	作用	老旧设备建议值	适配场景
`-m`	模型路径	必须填写	所有场景
`-t`	线程数	CPU 物理核心数	提升生成速度
`-c`	上下文长度（记忆长度）	512-1024	减少内存占用
`--mlock`	锁定内存，避免交换到硬盘	开启	4GB 内存设备必开
`--no-mmap`	不使用内存映射	开启	小内存设备（<8GB）必开
`--n-predict`	每次生成的最大 token 数	128-256	减少生成时间

./main -m ./models/phi-2-2.7b-chat.Q4_K_M.gguf -t 4 -c 512 --mlock --no-mmap --n-predict 128

对话效果：输入「用 3 句话介绍人工智能」，看回答是否通顺、符合逻辑。
响应速度：用以下命令测试生成 10 个 token 的时间：
```
./main -m ./models/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --prompt "Hello" --n-predict 10
```
老旧设备能在 2-5 秒内生成就算流畅。

Llama.cpp 部署教程：老旧电脑运行大模型方案

概述

一、前置准备与核心认知

1.1 最低硬件配置要求

1.2 核心基础认知

1.3 老旧设备专属模型选型指南

1.4 前置环境准备

全平台基础环境

分平台环境安装

更多推荐文章

相关免费在线工具

二、老旧电脑专属：llama.cpp 简易一键部署方案（免复杂编译）

步骤 1：获取 llama.cpp 预编译工具

步骤 2：下载 GGUF 模型

步骤 3：一键运行对话

Windows：

Linux/Mac：

步骤 4：开始对话

三、llama.cpp 全功能进阶部署与编译优化（极致性能版）

3.1 全平台源码编译实操

Windows：

Apple Silicon Mac 用：cmake .. -DLLAMA_NATIVE=ON -DLLAMA_METAL=ON

3.3 极致轻量化核心参数配置

四、运行效果测试与极致优化技巧

4.1 运行效果验证

4.2 老旧设备专属 5 个极致流畅度优化技巧

五、老旧设备部署高频问题排查与解决方案

问题 1：编译失败

问题 2：运行卡顿、闪退

问题 3：模型加载报错

问题 4：中文乱码

问题 5：无响应

总结

更多推荐文章

相关免费在线工具

Llama.cpp 部署教程：老旧电脑运行大模型方案

概述

一、前置准备与核心认知

1.1 最低硬件配置要求

1.2 核心基础认知

1.3 老旧设备专属模型选型指南

1.4 前置环境准备

全平台基础环境

分平台环境安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、老旧电脑专属：llama.cpp 简易一键部署方案（免复杂编译）

步骤 1：获取 llama.cpp 预编译工具

步骤 2：下载 GGUF 模型

步骤 3：一键运行对话

Windows：

Linux/Mac：

步骤 4：开始对话

三、llama.cpp 全功能进阶部署与编译优化（极致性能版）

3.1 全平台源码编译实操

Windows：

Apple Silicon Mac 用：cmake .. -DLLAMA_NATIVE=ON -DLLAMA_METAL=ON

3.3 极致轻量化核心参数配置

四、运行效果测试与极致优化技巧

4.1 运行效果验证

4.2 老旧设备专属 5 个极致流畅度优化技巧

五、老旧设备部署高频问题排查与解决方案

问题 1：编译失败

问题 2：运行卡顿、闪退

问题 3：模型加载报错

问题 4：中文乱码

问题 5：无响应

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具