使用 Ollama 本地部署 Llama 3.1 大模型完整指南
Meta 发布 Llama 3.1 大模型,支持 128k 上下文。介绍如何使用 Ollama 工具在本地快速部署并运行该模型。涵盖安装步骤、命令行交互、API 调用及性能优化方案,帮助用户在个人设备上体验开源大模型能力。

Meta 发布 Llama 3.1 大模型,支持 128k 上下文。介绍如何使用 Ollama 工具在本地快速部署并运行该模型。涵盖安装步骤、命令行交互、API 调用及性能优化方案,帮助用户在个人设备上体验开源大模型能力。

Meta 于 2024 年 7 月发布了 Llama 3.1 系列大语言模型,包含 8B、70B 和 405B 三种规模。相比前代,Llama 3.1 将上下文窗口提升至 128k,在数学推理、代码生成及多语言翻译等任务上表现优异。
Ollama 是一个开源的大模型管理工具,支持在本地快速部署和运行各类大模型。它简化了模型下载、量化和管理流程,使得开发者可以在个人电脑上体验强大的 AI 能力。
访问官网 https://ollama.com/download 获取对应系统的安装包。
brew install ollama
直接运行下载的 .exe 安装程序,安装完成后服务将自动启动。
打开终端或命令行,输入以下命令检查版本:
ollama --version
若显示版本号则安装成功。
Llama 3.1 的官方模型名称为 llama3.1。执行以下命令拉取 8B 版本:
ollama pull llama3.1:8b
首次运行会自动下载模型权重文件,请确保网络通畅。
拉取完成后,直接运行模型进入交互模式:
ollama run llama3.1
此时可输入自然语言问题进行提问,例如:
ollama list
该命令会列出所有已下载的模型及其大小。
Ollama 默认监听 http://localhost:11434 端口,可通过 HTTP 请求进行集成。
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "为什么天空是蓝色的?",
"stream": false
}'
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama3.1',
'prompt': '解释量子计算的基本原理',
'stream': False
})
print(response.json()['response'])
为了节省显存和磁盘空间,可选择不同量化级别的模型:
q4_0: 4-bit 量化,速度快,精度适中q8_0: 8-bit 量化,精度高,占用资源较多拉取特定量化版本:
ollama pull llama3.1:8b-q4_K_M
在运行时可通过环境变量或 API 参数调整行为:
temperature: 控制随机性(0.0~1.0),越低越确定top_p: 核采样阈值num_ctx: 上下文长度限制示例:设置上下文长度为 32k
ollama run llama3.1 --num_ctx 32768
Ollama 支持多进程请求,适合构建高并发应用。生产环境建议配合 Nginx 反向代理使用。
通过 Ollama 部署 Llama 3.1 是体验开源大模型的高效方式。无需复杂配置即可在本地获得媲美云端的服务,适合开发测试、数据隐私敏感场景及个人学习使用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online