使用 Ollama 本地部署 Llama 3.1 大模型指南

使用 Ollama 本地部署 Llama 3.1 大模型指南 | 极客日志

curl -fsSL https://ollama.com/install.sh | sh

ollama run llama3.1:8b

ollama run llama3.1:70b
ollama run llama3.1:405b

curl http://localhost:8888/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "你好啊"
}'

import requests
import json

url = "http://localhost:8888/api/generate"
data = {
    "model": "llama3.1:8b",
    "prompt": "请简述人工智能的发展历史",
    "stream": True
}

with requests.post(url, json=data, stream=True) as response:
    for line in response.iter_lines():
        if line:
            buffer = b""
            try:
                # 处理 JSON 流
                chunk = json.loads(line)
                print(chunk.get("response", ""), end="", flush=True)
            except Exception:
                pass

Docker 安装（推荐）：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Pip 安装：需确保 Python 版本不为 3.12，建议使用 3.11。
```
pip install open-webui
```

ollama pull llama3.1:8b
ollama rm llama3.1:8b
ollama run llama3.1:8b

使用 Ollama 本地部署 Llama 3.1 大模型指南

使用 Ollama 本地部署 Llama 3.1 大模型指南

1. Llama 3.1 介绍

2. 环境准备

2.1 硬件环境要求

2.2 软件环境

3. 安装步骤

3.1 安装 GPU 驱动程序

3.2 安装 Ollama 客户端

Windows 系统

Linux 系统

3.3 拉取模型文件

4. 模型配置与远程访问

4.1 配置环境变量

4.2 防火墙设置

5. API 调用示例

5.1 使用 Curl 测试

5.2 使用 Python 调用

6. Web UI 集成

6.1 Open WebUI

6.2 LobeChat

7. 常见问题与优化

7.1 显存不足 (OOM)

7.2 响应速度慢

7.3 模型更新

8. 总结

更多推荐文章

相关免费在线工具

使用 Ollama 本地部署 Llama 3.1 大模型指南

使用 Ollama 本地部署 Llama 3.1 大模型指南

1. Llama 3.1 介绍

2. 环境准备

2.1 硬件环境要求

2.2 软件环境

3. 安装步骤

3.1 安装 GPU 驱动程序

3.2 安装 Ollama 客户端

Windows 系统

Linux 系统

3.3 拉取模型文件

4. 模型配置与远程访问

4.1 配置环境变量

4.2 防火墙设置

5. API 调用示例

5.1 使用 Curl 测试

5.2 使用 Python 调用

6. Web UI 集成

6.1 Open WebUI

6.2 LobeChat

7. 常见问题与优化

7.1 显存不足 (OOM)

7.2 响应速度慢

7.3 模型更新

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具