本地运行 Llama3 极简教程
Ollama 是一个简化的工具,用于在本地运行开源大语言模型(LLM),包括 Mistral、Llama 2 和 Llama 3 等。Ollama 将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中,支持各种 LLM。
本文介绍了如何在本地环境通过 Ollama 快速部署和运行 Llama3 模型。内容涵盖基础安装方法(Mac/Linux/WSL)、CLI 交互测试、Docker 部署 Web UI 界面以及 Python SDK(LiteLLM、LangChain)集成方案。同时包含硬件加速配置建议和常见故障排除指南,帮助用户在个人设备上实现大模型的高效推理。

Ollama 是一个简化的工具,用于在本地运行开源大语言模型(LLM),包括 Mistral、Llama 2 和 Llama 3 等。Ollama 将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中,支持各种 LLM。
| Model | Parameters | Size |
|---|---|---|
| Llama 3 | 8B | 4.7GB |
| Llama 3 | 70B | 40GB |
| Mistral | 7B | 4.1GB |
| Dolphin Phi | 2.7B | 1.6GB |
| Phi-2 | 2.7B | 1.7GB |
| Neural Chat | 7B | 4.1GB |
| Starling | 7B | 4.1GB |
| Code Llama | 7B | 3.8GB |
| Llama 2 Uncensored | 7B | 3.8GB |
| Llama 2 13B | 13B | 7.3GB |
| Llama 2 70B | 70B | 39GB |
| Orca Mini | 3B | 1.9GB |
| LLaVA | 7B | 4.5GB |
| Gemma | 2B | 1.4GB |
| Gemma | 7B | 4.8GB |
| Solar | 10.7B | 6.1GB |
官方地址:https://ollama.com/
从官方网站下载并安装。对于 MacOS 和 Linux 用户,可以使用以下命令一键安装:
curl -fsSL https://ollama.com/install.sh | sh
Windows 原生支持预览版,但部分用户可能遇到兼容性问题。推荐使用 WSL (Windows Subsystem for Linux) 在 Ubuntu 上运行。
前提是你的显卡是英伟达的,可以安装用来加速模型的推理,否则就要靠 CPU,回答的速度会降低很多!
nvidia-smi安装完成后,输入以下命令启动模型:
ollama run llama3
程序会自动下载权重文件,默认下载的是 llama3:8b。下载完成后,会提示 send a message ?,此时可以输入问题进行测试。
示例交互:
User: Hello, how are you?
Assistant: I am an AI assistant created by Meta. I can help you with various tasks...
为了更直观地操作,可以采用开源项目 Open WebUI。该项目的 UI 和 ChatGPT 非常类似。
假设你的电脑已经安装了 Docker,执行以下命令:
docker pull ghcr.io/ollama-webui/ollama-webui:main
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
注意:如果你遇到了连接问题,通常是因为 WebUI docker 容器无法访问容器内的 127.0.0.1:11434 (host.docker.internal:11434) 的 Ollama 服务器。使用 docker 命令中的
--network=host标志来解决这个问题。注意端口从 3000 改为 8080,导致链接:http://localhost:8080。
输入地址 http://localhost:8080 进行访问,初次访问需要注册账号。
进入设置后,你需要配置 Ollama 访问 URL(配置成 http://127.0.0.1:11434)并选择要使用的模型。
你也可以将 Ollama 与 Python 一起使用。LiteLLM 是一个 Python 库,它提供了一个统一的接口来与各种 LLM 进行交互,包括 Ollama 运行的 LLM。
首先需要安装依赖:
pip install litellm
代码示例:
from litellm import completion
response = completion(
model="ollama/llama3",
messages=[{ "content": "respond in 20 words. who are you?", "role": "user"}],
api_base="http://localhost:11434"
)
print(response.choices[0].message.content)
LangChain 也提供了对 Ollama 的支持。
from langchain_community.llms import Ollama
llm = Ollama(model="llama3")
result = llm.invoke("Why is the sky blue?")
print(result)
from llama_index.llms.ollama import Ollama
llm = Ollama(model="llama3")
response = llm.complete("Why is the sky blue?")
print(response.text)
如果下载过程中断,可以尝试删除本地缓存目录重新下载。Linux/Mac 通常在 ~/.ollama/models,Windows 在 %USERPROFILE%\.ollama\models。
如果运行 70B 模型时显存不足,建议切换到 8B 版本或使用量化版本。可以通过指定 tag 来运行特定版本,例如:
ollama run llama3:8b
在 Docker 环境中,确保 Ollama 服务端口(默认 11434)未被防火墙拦截。如果是跨容器通信,需确保 OLLAMA_HOST 环境变量正确配置。
本文介绍了如何在本地环境通过 Ollama 快速部署和运行 Llama3 模型。涵盖了从基础安装、CLI 交互到 Web UI 界面以及 Python SDK 集成的完整流程。配合 WSL 和 CUDA 加速,可以在个人电脑上实现高效的大模型推理体验。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online