本地部署 Llama3-8B 大模型实战指南
本文介绍在 Ubuntu 环境下使用 NVIDIA GPU 部署 Llama3-8B 大模型的完整流程。涵盖 CUDA 驱动安装、Ollama 服务配置、模型拉取与运行,以及基础 API 调用测试。通过本地化部署保障数据安全,降低算力成本,适合垂直领域模型应用开发。同时简要介绍了 Llama.cpp 量化与 Unsloth 微调的适用场景。

本文介绍在 Ubuntu 环境下使用 NVIDIA GPU 部署 Llama3-8B 大模型的完整流程。涵盖 CUDA 驱动安装、Ollama 服务配置、模型拉取与运行,以及基础 API 调用测试。通过本地化部署保障数据安全,降低算力成本,适合垂直领域模型应用开发。同时简要介绍了 Llama.cpp 量化与 Unsloth 微调的适用场景。

我们正处于人工智能时代,各行各业都在向 AI 靠拢。打造垂直领域的 AI 模型将成为企业未来的发展趋势。
在无法掌握核心算法的情况下,许多公司选择使用大公司的成熟方案,但这涉及到数据安全的问题。训练垂直定制化的大模型需要大量数据,而数据是公司的核心资产和基石。没有公司愿意将这些关键数据上传到外部服务器,这是企业的命脉所在。
因此,本地部署和训练自有或定制化的大模型显得尤为重要。这不仅是未来的发展趋势,也是开发者必须掌握的关键流程和解决方案。
经过评估,推荐使用以下组合方案:
参考官方文档进行安装。以下方案经实践验证简单好用。
# 添加 CUDA 仓库配置
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
# 下载并安装 CUDA 仓库
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
# 安装 CUDA 工具包
sudo apt-get -y install cuda
# 查看推荐驱动版本
sudo ubuntu-drivers devices
# 安装合适版本驱动(示例为 550 版本)
sudo apt-get install -y cuda-drivers-550
# 验证驱动状态
nvidia-smi
watch -n 5 nvidia-smi
建议手动安装以获得更多控制权。
# 下载二进制文件
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
# 添加执行权限
sudo chmod +x /usr/bin/ollama
# 创建系统用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
创建配置文件 /etc/systemd/system/ollama.service:
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
# 监听端口
Environment="OLLAMA_HOST=0.0.0.0:11434"
# 模型下载位置(需确保 ollama 用户有写入权限)
Environment="OLLAMA_MODELS=/home/user/ollama/models"
# 单模型并发数量
Environment="OLLAMA_NUM_PARALLEL=100"
# GPU 选择(如有多卡可指定,如 0,1)
Environment="CUDA_VISIBLE_DEVICES=0"
# 最大加载模型数
Environment="OLLAMA_MAX_LOADED_MODELS=3"
[Install]
WantedBy=default.target
启动并检查服务:
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
journalctl -u ollama -f
若遇到权限错误,请确认目录归属:
sudo chown -R ollama:ollama /home/user/ollama
ollama pull llama3:8b
ollama run llama3:8b
Ollama 默认提供 HTTP API,可通过 curl 或 Python 脚本进行测试。
Curl 示例:
curl http://localhost:11434/api/generate -d '{
"model": "llama3:8b",
"prompt": "你好,请介绍一下你自己。",
"stream": false
}'
Python 示例:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama3:8b',
'prompt': '请简述人工智能的发展趋势。',
'stream': False
}
)
print(response.json()['response'])
文中提到的其他工具在特定场景下可配合使用:
通过上述步骤,您可以在本地 Ubuntu 环境下成功部署 Llama3-8B 大模型。本地化部署不仅保障了数据安全性,还降低了长期运营成本。对于垂直领域应用,结合 Unsloth 进行微调可进一步提升业务适配度。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online