本地快速安装运行开源 LLaMa3 大模型

Meta 发布的 LLaMa3 大模型在各项指标上全面逼近 GPT-4，提供了 8B 和 70B 两个版本。其中 8B 版本最低仅需 4G 显存即可运行，是迄今为止能在本地运行的最强 LLM 之一。虽然原生模型对中文支持有限，但 HuggingFace 上已有大量针对中文的微调版本。

本文将详细介绍如何在本地环境从零开始部署和运行发布在 HuggingFace 上的各种 LLaMa3 大模型，包括使用 Ollama 作为推理引擎，Open WebUI 作为前端界面，以及通过 API 进行交互。

准备环境

本文演示环境为 Mac M1 芯片（16G 内存）。主要工具如下：

Ollama：用于运行大模型的开源后端服务。
Open WebUI：基于 Docker 的开源前端界面，提供类似 ChatGPT 的浏览器访问体验。
Docker：用于容器化部署 Open WebUI。

安装软件

首先安装 Ollama。它允许用户通过命令行方便地运行各种大语言模型。

1. 下载与安装

前往 Ollama 官网下载对应操作系统的安装包并安装。安装完成后，打开终端测试 Ollama 是否正常运行：

$ ollama -v
ollama version is 0.1.32

如果显示版本号，说明安装成功。

下载模型

Ollama 内置了一些基础模型，但选择有限。为了评估各种微调模型，建议从 HuggingFace 下载 GGUF 格式的模型文件。

1. 搜索模型

在 HuggingFace 搜索 llama3，设置 Languages 为 Chinese，可以看到若干基于 LLaMa3 的中文模型。

2. 选择格式

GGUF 格式是由 llama.cpp 团队开发的一种模型存储格式，将模型权重、元数据等整合在一个文件中，便于下载和管理。

点击 Files 标签页，可以看到不同量化等级的 GGUF 文件。文件名中的 q 值代表量化精度（如 q4, q6, q8），数值越大模型质量越高，但文件体积也越大。对于本地运行，推荐选择 q6_k 或 q5_k_m 以平衡性能与资源占用。

直接点击下载按钮，将模型文件保存到本地目录，例如 /Users/username/llm/models/。

导入模型

下载到本地的 GGUF 文件不能直接由 Ollama 识别，需要编写一个配置文件来定义模型路径和对话模板。

1. 创建配置文件

新建一个文本文件，命名为 Modelfile（注意大小写敏感，Ollama 默认查找 Modelfile）：

FROM "/Users/username/llm/models/Llama3-8B-Chinese-Chat.q6_k.GGUF"

TEMPLATE """{{- if .System }}
<|im_start|>system {{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""

SYSTEM """""

PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

配置说明：

FROM "..."：指定本地 GGUF 文件的绝对路径，需根据实际路径修改。
TEMPLATE：定义了系统提示词、用户输入和助手回复的格式，确保符合 LLaMa3 的对话结构。
PARAMETER stop：设置停止符，防止生成无限循环。

2. 执行导入

在终端进入配置文件所在目录，运行以下命令：

本地快速安装运行开源 LLaMa3 大模型

本地快速安装运行开源 LLaMa3 大模型

准备环境