本地部署与运行 Llama3 模型实战指南 | 极客日志

PythonAI算法

本地部署与运行 Llama3 模型实战指南

在本地环境部署和运行 Llama3 大语言模型可通过 Ollama 工具实现。涵盖从系统安装、模型下载、Web UI 配置到 Python 开发集成的全流程，包括 Windows WSL 下的 CUDA 加速方案及常见故障排查，帮助用户快速搭建私有化 AI 推理环境。内容涉及 Ollama CLI 使用、Open WebUI 部署、以及基于 LiteLLM 和 LangChain 的代码集成示例。

利刃发布于 2025/2/6更新于 2026/6/117 浏览

本地部署与运行 Llama3 模型实战指南

Meta 于近期发布了最新的开源模型 Llama 3，为本地化部署大语言模型提供了更强大的选择。Ollama 是一个简化的工具，专门用于在本地运行开源 LLM（如 Mistral、Llama 2/3），它将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中。

系统要求与准备

在开始之前，请确保您的硬件满足以下基本要求：

内存 (RAM): 至少 8GB (推荐 16GB 或更高)。
存储: 根据模型大小预留空间，Llama 3 8B 约需 4.7GB，70B 版本约需 40GB。
显卡 (GPU): 推荐使用 NVIDIA 显卡以启用 CUDA 加速推理速度；若仅使用 CPU，响应速度会相对较慢。

支持的模型列表如下：

Model	Parameters	Size
Llama 3	8B	4.7GB
Llama 3	70B	40GB
Mistral	7B	4.1GB
Dolphin Phi	2.7B	1.6GB
Phi-2	2.7B	1.7GB
Neural Chat	7B	4.1GB
Starling	7B	4.1GB
Code Llama	7B	3.8GB
Llama 2 Uncensored	7B	3.8GB
Llama 2 13B	13B	7.3GB
Llama 2 70B	70B	39GB
Orca Mini	3B	1.9GB
LLaVA	7B	4.5GB
Gemma	2B	1.4GB
Gemma	7B	4.8GB
Solar	10.7B	6.1GB

下载地址：https://ollama.com

安装 Ollama

macOS 和 Linux

对于 MacOS 和 Linux 用户，可以通过终端命令直接安装：

curl -fsSL https://ollama.com/install.sh | sh

Windows (WSL 环境)

Windows 原生支持预览版，但为了获得更好的兼容性和性能，建议通过 WSL (Windows Subsystem for Linux) 在 Ubuntu 上运行。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

ollama run llama3

docker pull ghcr.io/ollama-webui/ollama-webui:main

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

from litellm import completion

response = completion(
    model="ollama/llama3",
    messages=[{"role": "user", "content": "respond in 20 words. who are you?"}],
    api_base="http://localhost:11434"
)

print(response.choices[0].message.content)

from langchain_community.llms import Ollama

llm = Ollama(model="llama3")
result = llm.invoke("Why is the sky blue?")
print(result)

from llama_index.llms.ollama import Ollama

llm = Ollama(model="llama3")
response = llm.complete("Why is the sky blue?")
print(response.text)

本地部署与运行 Llama3 模型实战指南

本地部署与运行 Llama3 模型实战指南

系统要求与准备

安装 Ollama

macOS 和 Linux

Windows (WSL 环境)

更多推荐文章

相关免费在线工具

运行 Llama3 模型

使用 Web UI 进行可视化操作

前提条件

拉取镜像

启动容器

初始化配置

开发者集成：Python 与 AI 框架

使用 LiteLLM

使用 LangChain

使用 LlamaIndex

硬件加速：WSL 下安装 CUDA

常见问题排查

更多推荐文章

相关免费在线工具

本地部署与运行 Llama3 模型实战指南

本地部署与运行 Llama3 模型实战指南

系统要求与准备

安装 Ollama

macOS 和 Linux

Windows (WSL 环境)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

运行 Llama3 模型

使用 Web UI 进行可视化操作

前提条件

拉取镜像

启动容器

初始化配置

开发者集成：Python 与 AI 框架

使用 LiteLLM

使用 LangChain

使用 LlamaIndex

硬件加速：WSL 下安装 CUDA

常见问题排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具