本地部署 Llama3-8B 大模型实战指南

综述由AI生成介绍在 Ubuntu 环境下使用 NVIDIA GPU 部署 Llama3-8B 大模型的完整流程。涵盖 CUDA 驱动安装、Ollama 服务配置、模型拉取与运行，以及基础 API 调用测试。通过本地化部署保障数据安全，降低算力成本，适合垂直领域模型应用开发。同时简要介绍了 Llama.cpp 量化与 Unsloth 微调的适用场景。

监控大屏发布于 2025/2/6更新于 2026/6/224 浏览

本地部署 Llama3-8B 大模型实战指南

一、为什么需要本地部署属于自己的大模型？

1. 趋势与数据安全

我们正处于人工智能时代，各行各业都在向 AI 靠拢。打造垂直领域的 AI 模型将成为企业未来的发展趋势。

在无法掌握核心算法的情况下，许多公司选择使用大公司的成熟方案，但这涉及到数据安全的问题。训练垂直定制化的大模型需要大量数据，而数据是公司的核心资产和基石。没有公司愿意将这些关键数据上传到外部服务器，这是企业的命脉所在。

因此，本地部署和训练自有或定制化的大模型显得尤为重要。这不仅是未来的发展趋势，也是开发者必须掌握的关键流程和解决方案。

二、技术选型与方案概述

经过评估，推荐使用以下组合方案：

模型：Llama3-8b（低算力需求，卓越上下文记忆，灵活微调）
部署工具：Ollama（活跃生态，高效运行，API 接口丰富）
量化优化：Llama.cpp（广泛支持量化工具，社区资源丰富）
微调训练：Unsloth（多样化数据集支持，优异性能，本地训练保护隐私）

三、环境准备：Ubuntu 与 NVIDIA GPU

1. 为什么使用 GPU？

训练时间：GPU 可显著缩短训练时间。复杂深度学习模型在 GPU 上可能只需几小时，而在 CPU 上可能需要数天。
推理效率：在处理实时数据时，GPU 的高并行处理能力提供更快响应和更高吞吐量。

2. 安装 CUDA 驱动

参考官方文档进行安装。以下方案经实践验证简单好用。

安装 CUDA Toolkit

# 添加 CUDA 仓库配置
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

# 下载并安装 CUDA 仓库
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update

# 安装 CUDA 工具包
sudo apt-get -y install cuda

安装显卡驱动

# 查看推荐驱动版本
sudo ubuntu-drivers devices

# 安装合适版本驱动（示例为 550 版本）
sudo apt-get install -y cuda-drivers-550

# 验证驱动状态
nvidia-smi
watch -n 5 nvidia-smi

四、部署 Ollama 服务

1. 安装 Ollama

建议手动安装以获得更多控制权。

# 下载二进制文件
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama

# 添加执行权限
sudo chmod +x /usr/bin/ollama

# 创建系统用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

2. 配置 Systemd 服务

创建配置文件 /etc/systemd/system/ollama.service：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

# 监听端口
Environment="OLLAMA_HOST=0.0.0.0:11434"
# 模型下载位置（需确保 ollama 用户有写入权限）
Environment="OLLAMA_MODELS=/home/user/ollama/models"
# 单模型并发数量
Environment="OLLAMA_NUM_PARALLEL=100"
# GPU 选择（如有多卡可指定，如 0,1）
Environment="CUDA_VISIBLE_DEVICES=0"
# 最大加载模型数
Environment="OLLAMA_MAX_LOADED_MODELS=3"

[Install]
WantedBy=default.target

启动并检查服务：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
journalctl -u ollama -f

若遇到权限错误，请确认目录归属：

sudo chown -R ollama:ollama /home/user/ollama

五、运行与测试 Llama3-8B

1. 拉取模型

ollama pull llama3:8b

2. 本地运行

ollama run llama3:8b

3. API 调用测试

Ollama 默认提供 HTTP API，可通过 curl 或 Python 脚本进行测试。

Curl 示例：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3:8b",
  "prompt": "你好，请介绍一下你自己。",
  "stream": false
}'

Python 示例：

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3:8b',
        'prompt': '请简述人工智能的发展趋势。',
        'stream': False
    }
)
print(response.json()['response'])

六、进阶：量化与微调

文中提到的其他工具在特定场景下可配合使用：

Llama.cpp：适用于资源受限环境，可将模型量化为 GGUF 格式，降低显存占用。
Unsloth：适用于需要微调的场景，支持 LoRA 等高效微调方法，保护数据隐私的同时提升模型精度。

七、总结

通过上述步骤，您可以在本地 Ubuntu 环境下成功部署 Llama3-8B 大模型。本地化部署不仅保障了数据安全性，还降低了长期运营成本。对于垂直领域应用，结合 Unsloth 进行微调可进一步提升业务适配度。

本地部署 Llama3-8B 大模型实战指南

一、为什么需要本地部署属于自己的大模型？

1. 趋势与数据安全

我们正处于人工智能时代，各行各业都在向 AI 靠拢。打造垂直领域的 AI 模型将成为企业未来的发展趋势。

因此，本地部署和训练自有或定制化的大模型显得尤为重要。这不仅是未来的发展趋势，也是开发者必须掌握的关键流程和解决方案。

二、技术选型与方案概述

经过评估，推荐使用以下组合方案：

模型：Llama3-8b（低算力需求，卓越上下文记忆，灵活微调）
部署工具：Ollama（活跃生态，高效运行，API 接口丰富）
量化优化：Llama.cpp（广泛支持量化工具，社区资源丰富）
微调训练：Unsloth（多样化数据集支持，优异性能，本地训练保护隐私）

三、环境准备：Ubuntu 与 NVIDIA GPU

1. 为什么使用 GPU？

训练时间：GPU 可显著缩短训练时间。复杂深度学习模型在 GPU 上可能只需几小时，而在 CPU 上可能需要数天。
推理效率：在处理实时数据时，GPU 的高并行处理能力提供更快响应和更高吞吐量。

2. 安装 CUDA 驱动

参考官方文档进行安装。以下方案经实践验证简单好用。

安装 CUDA Toolkit

# 添加 CUDA 仓库配置
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

# 下载并安装 CUDA 仓库
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update

# 安装 CUDA 工具包
sudo apt-get -y install cuda

安装显卡驱动

# 查看推荐驱动版本
sudo ubuntu-drivers devices

# 安装合适版本驱动（示例为 550 版本）
sudo apt-get install -y cuda-drivers-550

# 验证驱动状态
nvidia-smi
watch -n 5 nvidia-smi

四、部署 Ollama 服务

1. 安装 Ollama

建议手动安装以获得更多控制权。

# 下载二进制文件
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama

# 添加执行权限
sudo chmod +x /usr/bin/ollama

# 创建系统用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

2. 配置 Systemd 服务

创建配置文件 /etc/systemd/system/ollama.service：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

# 监听端口
Environment="OLLAMA_HOST=0.0.0.0:11434"
# 模型下载位置（需确保 ollama 用户有写入权限）
Environment="OLLAMA_MODELS=/home/user/ollama/models"
# 单模型并发数量
Environment="OLLAMA_NUM_PARALLEL=100"
# GPU 选择（如有多卡可指定，如 0,1）
Environment="CUDA_VISIBLE_DEVICES=0"
# 最大加载模型数
Environment="OLLAMA_MAX_LOADED_MODELS=3"

[Install]
WantedBy=default.target

启动并检查服务：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
journalctl -u ollama -f

若遇到权限错误，请确认目录归属：

sudo chown -R ollama:ollama /home/user/ollama

五、运行与测试 Llama3-8B

1. 拉取模型

ollama pull llama3:8b

2. 本地运行

ollama run llama3:8b

3. API 调用测试

Ollama 默认提供 HTTP API，可通过 curl 或 Python 脚本进行测试。

Curl 示例：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3:8b",
  "prompt": "你好，请介绍一下你自己。",
  "stream": false
}'

Python 示例：

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3:8b',
        'prompt': '请简述人工智能的发展趋势。',
        'stream': False
    }
)
print(response.json()['response'])

六、进阶：量化与微调

文中提到的其他工具在特定场景下可配合使用：

Llama.cpp：适用于资源受限环境，可将模型量化为 GGUF 格式，降低显存占用。
Unsloth：适用于需要微调的场景，支持 LoRA 等高效微调方法，保护数据隐私的同时提升模型精度。

本地部署 Llama3-8B 大模型实战指南

本地部署 Llama3-8B 大模型实战指南

一、为什么需要本地部署属于自己的大模型？

1. 趋势与数据安全

二、技术选型与方案概述

三、环境准备：Ubuntu 与 NVIDIA GPU

1. 为什么使用 GPU？

2. 安装 CUDA 驱动

安装 CUDA Toolkit

安装显卡驱动

四、部署 Ollama 服务

1. 安装 Ollama

2. 配置 Systemd 服务

五、运行与测试 Llama3-8B

1. 拉取模型

2. 本地运行

3. API 调用测试

六、进阶：量化与微调

七、总结

本地部署 Llama3-8B 大模型实战指南

本地部署 Llama3-8B 大模型实战指南

一、为什么需要本地部署属于自己的大模型？

1. 趋势与数据安全

二、技术选型与方案概述

三、环境准备：Ubuntu 与 NVIDIA GPU

1. 为什么使用 GPU？

2. 安装 CUDA 驱动

安装 CUDA Toolkit

安装显卡驱动

四、部署 Ollama 服务

1. 安装 Ollama

2. 配置 Systemd 服务

五、运行与测试 Llama3-8B

1. 拉取模型

2. 本地运行

3. API 调用测试

六、进阶：量化与微调

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具