前置准备与核心认知
1.1 最低硬件配置要求
明确设备能否运行,参考以下绝对最低门槛和推荐配置:
| 硬件类型 | 绝对最低门槛(能跑) | 推荐配置(流畅) |
|---|---|---|
| 处理器 | Intel Core 2 Duo E8400 / AMD Athlon II X2 250 | Intel i3-4130 / AMD FX-6300 及以上 |
| 内存 | 4GB(需关闭其他软件) | 8GB(可同时开浏览器) |
| 硬盘 | 10GB 可用空间(机械硬盘) | 10GB 可用空间(SSD 优先) |
注意:「能跑」指 1B-2B 参数模型可生成对话,「流畅」指 3B 模型响应时间在 5-10 秒内。
1.2 核心基础认知
- llama.cpp 是什么:用 C++ 重写的 LLaMA 系列模型推理框架,砍掉深度学习框架冗余,专门优化 CPU 推理。
- 为什么能极致轻量化:通过模型量化(32 位浮点数压缩成 4 位/8 位整数)、CPU 指令集优化(AVX/AVX2 等)、内存高效管理,降低内存占用 75% 以上。
- GGUF 模型格式:替代旧版 GGML 的新格式,支持更多模型结构、更高效存储,是 llama.cpp 标准格式。
- 适配的模型范围:LLaMA/LLaMA 2、Mistral、Phi、TinyLLaMA、Qwen 等主流开源模型,只要有 GGUF 版本即可使用。
1.3 老旧设备专属模型选型指南
优先选择小参数量 + 中低量化等级的模型:
| 模型推荐 | 参数量 | 量化等级 | 内存占用 | 运行效果 | 适配设备年限 |
|---|---|---|---|---|---|
| TinyLLaMA-1.1B-Chat | 1.1B | Q4_K_M | ~600MB | 简单对话、常识问答 | 10 年以上老旧电脑 |
| Phi-2-2.7B-Chat | 2.7B | Q4_K_M | ~1.8GB | 逻辑推理、代码片段 | 8 年以内办公本 |
| Mistral-7B-Instruct-v0.2 | 7B | Q3_K_S | ~3GB | 复杂对话、长文本理解 | 5 年以内/8GB 内存设备 |
建议去 Hugging Face 搜索「TheBloke/模型名-GGUF」,该作者会上传全量化等级的 GGUF 模型。
1.4 前置环境准备
全平台基础环境
- Git(可选,进阶编译用):用于克隆 llama.cpp 源码,新手极简版可跳过。
- CMake(可选,进阶编译用):编译工具,新手极简版可跳过。
分平台环境安装
- Windows:
- 新手极简版:无需额外安装。
- 进阶版:安装 Visual Studio Build Tools(勾选「使用 C++ 的桌面开发」),安装 CMake。
- Linux(以 Ubuntu 为例):


