使用 Ollama 本地部署 Llama 3.1 大模型完整指南
背景介绍
Meta 于 2024 年 7 月发布了 Llama 3.1 系列大语言模型,包含 8B、70B 和 405B 三种规模。相比前代,Llama 3.1 将上下文窗口提升至 128k,在数学推理、代码生成及多语言翻译等任务上表现优异。
Ollama 是一个开源的大模型管理工具,支持在本地快速部署和运行各类大模型。它简化了模型下载、量化和管理流程,使得开发者可以在个人电脑上体验强大的 AI 能力。
系统要求
- 操作系统:macOS (12.3+), Linux, Windows 10/11
- 内存:
- 8B 模型建议至少 8GB RAM
- 70B 模型建议至少 64GB RAM
- 405B 模型建议至少 128GB RAM
- 硬件:支持 GPU 加速更佳(如 Apple M 系列芯片、NVIDIA CUDA)
安装步骤
1. 下载并安装 Ollama
访问官网 https://ollama.com/download 获取对应系统的安装包。
macOS / Linux
brew install ollama
Windows
直接运行下载的 .exe 安装程序,安装完成后服务将自动启动。
2. 验证安装
打开终端或命令行,输入以下命令检查版本:
ollama --version
若显示版本号则安装成功。
部署与运行
1. 拉取模型
Llama 3.1 的官方模型名称为 llama3.1。执行以下命令拉取 8B 版本:
ollama pull llama3.1:8b
首次运行会自动下载模型权重文件,请确保网络通畅。
2. 启动对话
拉取完成后,直接运行模型进入交互模式:
ollama run llama3.1
此时可输入自然语言问题进行提问,例如:
- "What is the capital of France?"
- "请用 Python 写一个冒泡排序函数"
3. 查看已安装模型
ollama list
该命令会列出所有已下载的模型及其大小。
API 调用示例
Ollama 默认监听 http://localhost:11434 端口,可通过 HTTP 请求进行集成。
使用 cURL
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "为什么天空是蓝色的?",
"stream": false
}'
使用 Python
import requests
response = requests.post(, json={
: ,
: ,
:
})
(response.json()[])


