Llama-3.2-3B 部署实战:Ollama + Docker 快速启动与 GPU 适配
想快速跑通 Llama-3.2-3B 的文本生成能力?通过 Ollama 镜像配合 Docker 部署,几分钟就能搭建属于自己的 AI 对话服务。无论使用的是 A10、A100 还是 T4 显卡,这套方案都能帮你快速上手。
Llama-3.2-3B 是 Meta 推出的 30 亿参数多语言大模型,针对对话场景优化,在多语言理解和生成上表现不错。借助 Ollama 的预置镜像,省去了复杂的环境配置,直接享受高质量的文本生成服务。
1. 环境准备与快速部署
1.1 系统要求
开始前确认系统满足以下基本条件:
- 操作系统:Ubuntu 18.04+、CentOS 7+ 或 Windows 10/11(WSL2)
- Docker:版本 20.10+
- 显卡驱动:NVIDIA 驱动 470.82.07+
- GPU 内存:至少 8GB VRAM(T4/A10/A100 均适用)
- 系统内存:建议 16GB RAM 以上
1.2 一键部署步骤
打开终端,执行以下命令快速启动 Llama-3.2-3B 服务:
# 拉取 Ollama 镜像(已包含 Llama-3.2-3B)
docker pull ollama/ollama
# 启动容器(自动适配 GPU)
docker run -d --gpus all \
-p 11434:11434 \
-v ollama:/root/.ollama \
--name llama3.2-3b \
ollama/ollama
# 下载 Llama-3.2-3B 模型(约 6GB)
docker exec llama3.2-3b ollama pull llama3.2:3b
等待模型下载完成后,服务就在后台运行了。通常耗时 10-20 分钟,视网络情况而定。
2. 快速上手体验
2.1 测试服务状态
部署完成后,先检查服务是否正常:
# 查看容器状态
docker ps
# 测试模型响应
curl http://localhost:11434/api/generate -d '{ "model": "llama3.2:3b", "prompt": "你好,请介绍一下你自己", "stream": false }'
看到返回的 JSON 数据中包含模型生成的文本,说明部署成功。
2.2 第一个对话示例
用简单的 Python 代码就能与模型交互:
import requests
import json
def chat_with_llama(prompt):
url = "http://localhost:11434/api/generate"
data = {
"model": "llama3.2:3b",
"prompt": prompt,
"stream": False
}
response = requests.post(url, json=data)
response.json()[]
answer = chat_with_llama()
(answer)

