Llama.cpp 低配置电脑部署大模型指南 | 极客日志

C++AI算法

Llama.cpp 低配置电脑部署大模型指南

Llama.cpp 部署方案支持老旧电脑运行大模型。文章涵盖最低硬件配置要求、TinyLLaMA 等小参数模型选型及 GGUF 格式下载。提供免编译一键部署步骤与源码编译优化方法，详解线程数、上下文长度等关键参数配置技巧。包含运行效果验证、流畅度优化策略及常见报错排查，帮助低内存设备实现本地大模型推理。

flc发布于 2026/4/11更新于 2026/5/2216 浏览

前置准备与核心认知

1.1 最低硬件配置要求

明确设备能否运行，参考以下绝对最低门槛和推荐配置：

硬件类型	绝对最低门槛（能跑）	推荐配置（流畅）
处理器	Intel Core 2 Duo E8400 / AMD Athlon II X2 250	Intel i3-4130 / AMD FX-6300 及以上
内存	4GB（需关闭其他软件）	8GB（可同时开浏览器）
硬盘	10GB 可用空间（机械硬盘）	10GB 可用空间（SSD 优先）

注意：「能跑」指 1B-2B 参数模型可生成对话，「流畅」指 3B 模型响应时间在 5-10 秒内。

1.2 核心基础认知

llama.cpp 是什么：用 C++ 重写的 LLaMA 系列模型推理框架，砍掉深度学习框架冗余，专门优化 CPU 推理。
为什么能极致轻量化：通过模型量化（32 位浮点数压缩成 4 位/8 位整数）、CPU 指令集优化（AVX/AVX2 等）、内存高效管理，降低内存占用 75% 以上。
GGUF 模型格式：替代旧版 GGML 的新格式，支持更多模型结构、更高效存储，是 llama.cpp 标准格式。
适配的模型范围：LLaMA/LLaMA 2、Mistral、Phi、TinyLLaMA、Qwen 等主流开源模型，只要有 GGUF 版本即可使用。

1.3 老旧设备专属模型选型指南

优先选择小参数量 + 中低量化等级的模型：

模型推荐	参数量	量化等级	内存占用	运行效果	适配设备年限
TinyLLaMA-1.1B-Chat	1.1B	Q4_K_M	~600MB	简单对话、常识问答	10 年以上老旧电脑
Phi-2-2.7B-Chat	2.7B	Q4_K_M	~1.8GB	逻辑推理、代码片段	8 年以内办公本
Mistral-7B-Instruct-v0.2	7B	Q3_K_S	~3GB	复杂对话、长文本理解	5 年以内/8GB 内存设备

建议去 Hugging Face 搜索「TheBloke/模型名-GGUF」，该作者会上传全量化等级的 GGUF 模型。

1.4 前置环境准备

全平台基础环境

Git（可选，进阶编译用）：用于克隆 llama.cpp 源码，新手极简版可跳过。
CMake（可选，进阶编译用）：编译工具，新手极简版可跳过。

分平台环境安装

Windows：
- 新手极简版：无需额外安装。
- 进阶版：安装 Visual Studio Build Tools（勾选「使用 C++ 的桌面开发」），安装 CMake。
Linux（以 Ubuntu 为例）：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Mac：

新手极简版：无需额外安装。
进阶版：安装 Xcode Command Line Tools：
```
xcode-select --install
```

进阶版：执行命令安装依赖：

sudo apt update && sudo apt install build-essential git cmake

打开 llama.cpp 文件夹，找到 main.exe。
按住 Shift 键，在文件夹空白处右键，选择「在此处打开 PowerShell 窗口」。
输入以下命令并回车：
```
.\main.exe -m .\models\tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --mlock
```
（参数说明：-t 4 是用 4 个线程，根据你的 CPU 核心数改；-c 512 是上下文长度，减少内存；--mlock 是锁定内存避免卡顿。）

给执行文件加权限（仅第一次）：
```
chmod +x main
```
打开终端，进入 llama.cpp 文件夹：
```
cd ~/llama.cpp
```

运行命令：

./main -m ./models/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --mlock

> 你好，介绍一下你自己。

打开「x64 Native Tools Command Prompt for VS 2022」（在开始菜单搜）。
编译好的工具在 build\bin\Release 文件夹里。
进入 llama.cpp 目录，创建 build 文件夹并编译：
```
mkdir build
cd build
cmake .. -DLLAMA_NATIVE=ON -DLLAMA_AVX2=ON
cmake --build . --config Release
```
（-DLLAMA_NATIVE=ON 会自动优化你的 CPU 指令集，性能提升 10%-20%。）

克隆 llama.cpp 源码：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

编译好的工具在 build/bin 文件夹里。
编译：
```
mkdir build
cd build
cmake .. -DLLAMA_NATIVE=ON
make -j4
```
（-j4 是用 4 个线程编译，根据你的 CPU 核心数改。）

克隆源码并进入目录：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

编译好的工具在 build/bin 文件夹里。

编译：

mkdir build
cd build
cmake .. -DLLAMA_NATIVE=ON -DLLAMA_METAL=OFF # Intel Mac 关闭 Metal
# Apple Silicon Mac 用：cmake .. -DLLAMA_NATIVE=ON -DLLAMA_METAL=ON
make -j4

克隆源码并进入目录：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

python convert.py /path/to/your/pytorch_model --outtype q4_k_m --outfile /path/to/output.gguf

pip install -r requirements.txt

参数	作用	老旧设备建议值	适配场景
`-m`	模型路径	必须填写	所有场景
`-t`	线程数	CPU 物理核心数	提升生成速度
`-c`	上下文长度（记忆长度）	512-1024	减少内存占用
`--mlock`	锁定内存，避免交换到硬盘	开启	4GB 内存设备必开
`--no-mmap`	不使用内存映射	开启	小内存设备（<8GB）必开
`--n-predict`	每次生成的最大 token 数	128-256	减少生成时间

./main -m ./models/phi-2-2.7b-chat.Q4_K_M.gguf -t 4 -c 512 --mlock --no-mmap --n-predict 128

对话效果：输入「用 3 句话介绍人工智能」，看回答是否通顺、符合逻辑。
响应速度：用以下命令测试生成 10 个 token 的时间：
```
./main -m ./models/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf -t 4 -c 512 --prompt "Hello" --n-predict 10
```
老旧设备能在 2-5 秒内生成就算流畅。

Llama.cpp 低配置电脑部署大模型指南

前置准备与核心认知

1.1 最低硬件配置要求

1.2 核心基础认知

1.3 老旧设备专属模型选型指南

1.4 前置环境准备

全平台基础环境

分平台环境安装

更多推荐文章

相关免费在线工具

极简一键部署方案（免复杂编译）

步骤 1：获取 llama.cpp 预编译工具

步骤 2：下载 GGUF 模型

步骤 3：一键运行对话

Windows：

Linux/Mac：

步骤 4：开始对话

进阶部署与编译优化

3.1 全平台源码编译实操

Windows：

Linux：

Mac：

3.2 模型转换与 GGUF 格式适配

3.3 极致轻量化核心参数配置

运行效果测试与优化

4.1 运行效果验证

4.2 老旧设备专属 5 个极致流畅度优化技巧

问题排查与解决方案

问题 1：编译失败

问题 2：运行卡顿、闪退

问题 3：模型加载报错

问题 4：中文乱码

问题 5：无响应

更多推荐文章

相关免费在线工具

Llama.cpp 低配置电脑部署大模型指南

前置准备与核心认知

1.1 最低硬件配置要求

1.2 核心基础认知

1.3 老旧设备专属模型选型指南

1.4 前置环境准备

全平台基础环境

分平台环境安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

极简一键部署方案（免复杂编译）

步骤 1：获取 llama.cpp 预编译工具

步骤 2：下载 GGUF 模型

步骤 3：一键运行对话

Windows：

Linux/Mac：

步骤 4：开始对话

进阶部署与编译优化

3.1 全平台源码编译实操

Windows：

Linux：

Mac：

3.2 模型转换与 GGUF 格式适配

3.3 极致轻量化核心参数配置

运行效果测试与优化

4.1 运行效果验证

4.2 老旧设备专属 5 个极致流畅度优化技巧

问题排查与解决方案

问题 1：编译失败

问题 2：运行卡顿、闪退

问题 3：模型加载报错

问题 4：中文乱码

问题 5：无响应

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具