本地部署与运行 Llama3 模型实战指南
Meta 于近期发布了最新的开源模型 Llama 3,为本地化部署大语言模型提供了更强大的选择。Ollama 是一个简化的工具,专门用于在本地运行开源 LLM(如 Mistral、Llama 2/3),它将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中。
在本地环境部署和运行 Llama3 大语言模型可通过 Ollama 工具实现。本文涵盖从系统安装、模型下载、Web UI 配置到 Python 开发集成的全流程,包括 Windows WSL 下的 CUDA 加速方案及常见故障排查,帮助用户快速搭建私有化 AI 推理环境。内容涉及 Ollama CLI 使用、Open WebUI 部署、以及基于 LiteLLM 和 LangChain 的代码集成示例。

Meta 于近期发布了最新的开源模型 Llama 3,为本地化部署大语言模型提供了更强大的选择。Ollama 是一个简化的工具,专门用于在本地运行开源 LLM(如 Mistral、Llama 2/3),它将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中。
在开始之前,请确保您的硬件满足以下基本要求:
支持的模型列表如下:
| Model | Parameters | Size |
|---|---|---|
| Llama 3 | 8B | 4.7GB |
| Llama 3 | 70B | 40GB |
| Mistral | 7B | 4.1GB |
| Dolphin Phi | 2.7B | 1.6GB |
| Phi-2 | 2.7B | 1.7GB |
| Neural Chat | 7B | 4.1GB |
| Starling | 7B | 4.1GB |
| Code Llama | 7B | 3.8GB |
| Llama 2 Uncensored | 7B | 3.8GB |
| Llama 2 13B | 13B | 7.3GB |
| Llama 2 70B | 70B | 39GB |
| Orca Mini | 3B | 1.9GB |
| LLaVA | 7B | 4.5GB |
| Gemma | 2B | 1.4GB |
| Gemma | 7B | 4.8GB |
| Solar | 10.7B | 6.1GB |
下载地址:https://ollama.com
对于 MacOS 和 Linux 用户,可以通过终端命令直接安装:
curl -fsSL https://ollama.com/install.sh | sh
Windows 原生支持预览版,但为了获得更好的兼容性和性能,建议通过 WSL (Windows Subsystem for Linux) 在 Ubuntu 上运行。
wsl --install。安装完成后,打开终端输入以下命令启动模型:
ollama run llama3
程序会自动下载默认模型(llama3:8b)的权重文件。下载完成后,界面会提示 send a message?,此时即可输入问题进行交互测试。
为了获得更直观的体验,可以使用开源项目 Open WebUI。该项目的界面设计与 ChatGPT 类似,支持多轮对话、上下文管理等功能。
确保您的电脑已安装 Docker。
docker pull ghcr.io/ollama-webui/ollama-webui:main
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
注意: 如果遇到连接问题,通常是因为 WebUI 容器无法访问宿主机上的 Ollama 服务。使用
--network=host标志可以解决此网络隔离问题。访问地址默认为http://localhost:8080。
首次访问需要注册账号。登录后,需在设置中配置 Ollama 访问 URL(通常为 http://127.0.0.1:11434)并选择要使用的模型。
Ollama 提供了丰富的 API 接口,方便开发者将其集成到自己的应用中。
LiteLLM 提供了一个统一的接口来与各种 LLM 交互。
from litellm import completion
response = completion(
model="ollama/llama3",
messages=[{"role": "user", "content": "respond in 20 words. who are you?"}],
api_base="http://localhost:11434"
)
print(response.choices[0].message.content)
LangChain 是构建 LLM 应用的流行框架。
from langchain_community.llms import Ollama
llm = Ollama(model="llama3")
result = llm.invoke("Why is the sky blue?")
print(result)
LlamaIndex 专注于数据索引与检索增强生成 (RAG)。
from llama_index.llms.ollama import Ollama
llm = Ollama(model="llama3")
response = llm.complete("Why is the sky blue?")
print(response.text)
如果您的显卡是 NVIDIA 品牌,可以在 WSL 中安装 CUDA 驱动来显著加速模型推理。
通过以上步骤,您可以成功在本地搭建一个私有化的 Llama3 运行环境,实现数据的隐私保护与低成本推理。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online