本地快速安装运行开源 LLaMa3 大模型
Meta 发布的 LLaMa3 大模型在各项指标上全面逼近 GPT-4,提供了 8B 和 70B 两个版本。其中 8B 版本最低仅需 4G 显存即可运行,是迄今为止能在本地运行的最强 LLM 之一。虽然原生模型对中文支持有限,但 HuggingFace 上已有大量针对中文的微调版本。
本文将详细介绍如何在本地环境从零开始部署和运行发布在 HuggingFace 上的各种 LLaMa3 大模型,包括使用 Ollama 作为推理引擎,Open WebUI 作为前端界面,以及通过 API 进行交互。
准备环境
本文演示环境为 Mac M1 芯片(16G 内存)。主要工具如下:
- Ollama:用于运行大模型的开源后端服务。
- Open WebUI:基于 Docker 的开源前端界面,提供类似 ChatGPT 的浏览器访问体验。
- Docker:用于容器化部署 Open WebUI。
安装软件
首先安装 Ollama。它允许用户通过命令行方便地运行各种大语言模型。
1. 下载与安装
前往 Ollama 官网下载对应操作系统的安装包并安装。安装完成后,打开终端测试 Ollama 是否正常运行:
$ ollama -v
ollama version is 0.1.32
如果显示版本号,说明安装成功。
下载模型
Ollama 内置了一些基础模型,但选择有限。为了评估各种微调模型,建议从 HuggingFace 下载 GGUF 格式的模型文件。
1. 搜索模型
在 HuggingFace 搜索 llama3,设置 Languages 为 Chinese,可以看到若干基于 LLaMa3 的中文模型。
2. 选择格式
GGUF 格式是由 llama.cpp 团队开发的一种模型存储格式,将模型权重、元数据等整合在一个文件中,便于下载和管理。
点击 Files 标签页,可以看到不同量化等级的 GGUF 文件。文件名中的 q 值代表量化精度(如 q4, q6, q8),数值越大模型质量越高,但文件体积也越大。对于本地运行,推荐选择 q6_k 或 q5_k_m 以平衡性能与资源占用。
直接点击下载按钮,将模型文件保存到本地目录,例如 /Users/username/llm/models/。
导入模型
下载到本地的 GGUF 文件不能直接由 Ollama 识别,需要编写一个配置文件来定义模型路径和对话模板。
1. 创建配置文件
新建一个文本文件,命名为 Modelfile(注意大小写敏感,Ollama 默认查找 Modelfile):
FROM "/Users/username/llm/models/Llama3-8B-Chinese-Chat.q6_k.GGUF"
TEMPLATE """{{- if .System }}
<|im_start|>system {{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
SYSTEM """""
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
配置说明:
FROM "...":指定本地 GGUF 文件的绝对路径,需根据实际路径修改。TEMPLATE:定义了系统提示词、用户输入和助手回复的格式,确保符合 LLaMa3 的对话结构。PARAMETER stop:设置停止符,防止生成无限循环。
2. 执行导入
在终端进入配置文件所在目录,运行以下命令:


