如何在 Ubuntu 上安装并使用 llama.cpp

综述由AI生成详细阐述了在 Ubuntu 环境下编译安装 llama.cpp 的步骤，涵盖依赖安装、源码克隆、CMake 配置（支持 OpenBLAS 或 CUDA）、模型格式转换（HF 至 GGUF）及量化操作。同时介绍了通过命令行工具启动本地推理服务的方法，并提供了模型获取及 Python 依赖安装的参考方案。

二进制发布于 2026/4/6更新于 2026/5/2038 浏览

如何在 Ubuntu 上安装并使用 llama.cpp

安装依赖

sudo apt update && sudo apt upgrade -y && sudo apt install build-essential cmake git libopenblas-dev libcurl4-openssl-dev

获取 llama.cpp 的源文件

git clone https://github.com/ggerganov/llama.cpp

开始编译

# 进入目录
cd llama.cpp/
mkdir build
cd build
# 带 openblas 加速库进行编译
cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS
cmake .. -DGGML_CUDA=ON
cmake --build . --config Release -j

模型格式转换

# 进入工作目录
cd llama.cpp/build/bin
# 将 huggingface 格式的模型转化为 gguf
python3 convert_hf_to_gguf.py /path/to/src_model --outtype f16 --outfile /path/to/target_model.gguf

注意此处 src_model 不是单个文件，包含模型结构配置、权重配置、分词器配置在内的完整模型目录。target_model.gguf 是单个文件。

量化如果需要运行更小的模型文件，可以使用 llama.cpp 自带的量化工具。

# 进入工作目录
cd llama.cpp/build/bin
# 将原来的模型量化成 Q3_K_S
./llama-quantize src_model.gguf target_model_Q3_K_S.gguf Q3_K_S
# 可以查看其他可用的量化方案
./llama-quantize --help

如果上述工具运行报错，记得安装好依赖。

# 建议用 conda 做好环境隔离后再安装下列依赖，避免污染系统的基础环境
pip install transformers torch mistral_common sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host https://pypi.tuna.tsinghua.edu.cn

运行

直接使用 llama-server。

./llama-server -m model.gguf -c 4096 --host 0.0.0.0

在浏览器上打开下列链接，即可开始对话。

http://localhost:8080

获取模型

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

# 0. 安装 modelscope 工具
pip install modelscope
# 1. 下载完整模型文件
modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct
# 2. 查看模型位置，默认会存放在缓存目录
ls ~/.cache/modelscope/hub/

如何在 Ubuntu 上安装并使用 llama.cpp

如何在 Ubuntu 上安装并使用 llama.cpp

获取模型

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

如何在 Ubuntu 上安装并使用 llama.cpp

如何在 Ubuntu 上安装并使用 llama.cpp

获取模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具