Llama 3.1 中文微调版本地部署指南：Ollama 与 HuggingFace 集成

Llama 3.1 中文微调版本地部署指南

Meta 公司最近发布了 Llama 3.1，但在原生中文处理方面表现仍有提升空间。幸运的是，社区已经推出了经过微调、支持中文的 Llama 3.1 版本（如 shenzhi-wang/Llama3.1-8B-Chinese-Chat）。本文将详细介绍如何在个人电脑上通过 Ollama 工具安装并运行该模型，实现流畅的中文 AI 体验。

环境准备

在开始之前，请确保您的计算机满足以下基本要求：

操作系统：macOS (Apple Silicon 或 Intel), Windows 10/11, Linux (Ubuntu/CentOS 等)
内存 (RAM)：建议至少 16GB，运行 8B 量化模型时 8GB 为最低门槛
硬盘空间：预留 5GB - 10GB 用于模型文件存储
网络：首次下载模型需要稳定的网络连接

安装 Ollama

Ollama 是一个强大的机器学习模型管理工具，能够帮助我们快速安装和管理各种大语言模型。以下是不同操作系统的安装步骤。

macOS

访问官网下载页面获取安装包：https://ollama.com/download/Ollama-darwin.zip

双击下载的 .zip 文件并拖拽至应用程序文件夹，然后在终端中验证安装：

$ ollama -v
ollama version is 0.2.1

Windows

访问官网下载页面获取安装程序：https://ollama.com/download/OllamaSetup.exe

运行安装向导完成安装后，打开 PowerShell 或 CMD 输入以下命令检测版本：

ollama -v

Linux

Linux 用户可通过终端脚本一键安装：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，检查服务状态：

systemctl status ollama

下载并导入 Llama 3.1 中文模型

Ollama 默认支持从官方库拉取模型，但为了使用特定的中文微调版本，我们需要先下载 GGUF 格式的模型文件，然后创建自定义配置文件进行导入。

1. 获取模型文件

前往 Hugging Face 找到 shenzhi-wang/Llama3.1-8B-Chinese-Chat 仓库。在下载页面选择量化版本（推荐 Q4_K_M.gguf 或 Q8_0.gguf），根据显存大小选择合适的精度。

Q4_K_M: 平衡性能与速度，适合大多数消费级显卡
Q8_0: 精度更高，占用更多内存

将下载的文件重命名为易于识别的名称，例如 llama3.1_8b_chinese_chat_q4.gguf。

2. 编写 Modelfile 配置文件

下载到本地的模型文件不能直接通过 ollama run 调用，需要编写一个配置文件（通常命名为 Modelfile 或任意名称）来定义模型参数和提示词模板。

创建一个名为 config.txt 的文件，内容如下：

Llama 3.1 中文微调版本地部署指南：Ollama 与 HuggingFace 集成