使用 Ollama 本地部署 Llama 3.1 大模型完整指南

背景介绍

Meta 于 2024 年 7 月发布了 Llama 3.1 系列大语言模型，包含 8B、70B 和 405B 三种规模。相比前代，Llama 3.1 将上下文窗口提升至 128k，在数学推理、代码生成及多语言翻译等任务上表现优异。

Ollama 是一个开源的大模型管理工具，支持在本地快速部署和运行各类大模型。它简化了模型下载、量化和管理流程，使得开发者可以在个人电脑上体验强大的 AI 能力。

系统要求

操作系统：macOS (12.3+), Linux, Windows 10/11
内存：
- 8B 模型建议至少 8GB RAM
- 70B 模型建议至少 64GB RAM
- 405B 模型建议至少 128GB RAM
硬件：支持 GPU 加速更佳（如 Apple M 系列芯片、NVIDIA CUDA）

安装步骤

1. 下载并安装 Ollama

访问官网 https://ollama.com/download 获取对应系统的安装包。

macOS / Linux

brew install ollama

Windows

直接运行下载的 .exe 安装程序，安装完成后服务将自动启动。

2. 验证安装

打开终端或命令行，输入以下命令检查版本：

ollama --version

若显示版本号则安装成功。

部署与运行

1. 拉取模型

Llama 3.1 的官方模型名称为 llama3.1。执行以下命令拉取 8B 版本：

ollama pull llama3.1:8b

首次运行会自动下载模型权重文件，请确保网络通畅。

2. 启动对话

拉取完成后，直接运行模型进入交互模式：

ollama run llama3.1

此时可输入自然语言问题进行提问，例如：

"What is the capital of France?"
"请用 Python 写一个冒泡排序函数"

3. 查看已安装模型

ollama list

该命令会列出所有已下载的模型及其大小。

API 调用示例

Ollama 默认监听 http://localhost:11434 端口，可通过 HTTP 请求进行集成。

使用 cURL

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "为什么天空是蓝色的？",
  "stream": false
}'

使用 Python

import requests

response = requests.post(, json={
    : ,
    : ,
    : 
})
(response.json()[])

使用 Ollama 本地部署 Llama 3.1 大模型完整指南

使用 Ollama 本地部署 Llama 3.1 大模型完整指南

背景介绍

系统要求

安装步骤

1. 下载并安装 Ollama

macOS / Linux

Windows

2. 验证安装

部署与运行

1. 拉取模型

2. 启动对话

3. 查看已安装模型

API 调用示例

使用 cURL

使用 Python

更多推荐文章

相关免费在线工具

性能优化与配置

1. 模型量化

2. 调整参数

3. 并发处理

常见问题排查

总结

更多推荐文章

相关免费在线工具

使用 Ollama 本地部署 Llama 3.1 大模型完整指南

使用 Ollama 本地部署 Llama 3.1 大模型完整指南

背景介绍

系统要求

安装步骤

1. 下载并安装 Ollama

macOS / Linux

Windows

2. 验证安装

部署与运行

1. 拉取模型

2. 启动对话

3. 查看已安装模型

API 调用示例

使用 cURL

使用 Python

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能优化与配置

1. 模型量化

2. 调整参数

3. 并发处理

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具