Llama 3.1 中文微调版本地部署指南
Meta 公司最近发布了 Llama 3.1,但在原生中文处理方面表现仍有提升空间。幸运的是,社区已经推出了经过微调、支持中文的 Llama 3.1 版本(如 shenzhi-wang/Llama3.1-8B-Chinese-Chat)。本文将详细介绍如何在个人电脑上通过 Ollama 工具安装并运行该模型,实现流畅的中文 AI 体验。
环境准备
在开始之前,请确保您的计算机满足以下基本要求:
- 操作系统:macOS (Apple Silicon 或 Intel), Windows 10/11, Linux (Ubuntu/CentOS 等)
- 内存 (RAM):建议至少 16GB,运行 8B 量化模型时 8GB 为最低门槛
- 硬盘空间:预留 5GB - 10GB 用于模型文件存储
- 网络:首次下载模型需要稳定的网络连接
安装 Ollama
Ollama 是一个强大的机器学习模型管理工具,能够帮助我们快速安装和管理各种大语言模型。以下是不同操作系统的安装步骤。
macOS
访问官网下载页面获取安装包:https://ollama.com/download/Ollama-darwin.zip
双击下载的 .zip 文件并拖拽至应用程序文件夹,然后在终端中验证安装:
$ ollama -v
ollama version is 0.2.1
Windows
访问官网下载页面获取安装程序:https://ollama.com/download/OllamaSetup.exe
运行安装向导完成安装后,打开 PowerShell 或 CMD 输入以下命令检测版本:
ollama -v
Linux
Linux 用户可通过终端脚本一键安装:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,检查服务状态:
systemctl status ollama
下载并导入 Llama 3.1 中文模型
Ollama 默认支持从官方库拉取模型,但为了使用特定的中文微调版本,我们需要先下载 GGUF 格式的模型文件,然后创建自定义配置文件进行导入。
1. 获取模型文件
前往 Hugging Face 找到 shenzhi-wang/Llama3.1-8B-Chinese-Chat 仓库。在下载页面选择量化版本(推荐 Q4_K_M.gguf 或 Q8_0.gguf),根据显存大小选择合适的精度。
- Q4_K_M: 平衡性能与速度,适合大多数消费级显卡
- Q8_0: 精度更高,占用更多内存
将下载的文件重命名为易于识别的名称,例如 llama3.1_8b_chinese_chat_q4.gguf。
2. 编写 Modelfile 配置文件
下载到本地的模型文件不能直接通过 ollama run 调用,需要编写一个配置文件(通常命名为 Modelfile 或任意名称)来定义模型参数和提示词模板。
创建一个名为 config.txt 的文件,内容如下:


