Llama3 中文大模型本地与云端部署实战

Meta 于美国当地时间 4 月 18 日在官网发布了两款开源大模型，参数分别达到 80 亿 (8B) 和 700 亿 (70B)。这两款模型是目前同体量下性能最好的开源模型，直接逼近了一线顶级商业模型 GPT-4 和 Claude3。与此同时，一个 400B 的超大杯模型也在研发中。

虽然才过去短短几日，HuggingFace 上已经涌现了非常多的 Llama3 中文微调版。想部署一个 Llama3 中文版，对于没有 GPU 的同学，可以使用微调的量化模型来运行 CPU。

量化方案选择

不同的量化方法会带来不同的性能损失，选择合适的量化级别至关重要：

8bit 量化：几乎没有性能损失，适合对精度要求极高的场景。
AWQ 4bit 量化：对 8B 模型来说有约 2% 性能损失，对 70B 模型只有 0.05% 性能损失。
低 Bit 量化：参数越大的模型，低 bit 量化损失越低。AWQ 3bit 70B 也只有 2.7% 性能损失，完全可接受。

综合建议：如果追求无任何性能损失，8B 模型用 8bit 量化，70B 模型用 4bit 量化。如果能接受 2-3% 损失，8B 模型用 4bit 量化，70B 模型用 3bit 量化。

目前效果较好的中文微调版模型通常基于 shenzhi-wang/Llama3-8B-Chinese-Chat 等社区版本，该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M 及弱智吧数据集进行训练，使模型能够流畅使用中文回答用户提问。

环境准备

在开始部署前，请确保您的开发环境满足以下基础条件：

Python 3.9 或更高版本
pip 包管理器
Git 用于克隆代码仓库
足够的磁盘空间（建议至少 20GB 用于模型文件）

云端快速部署 (Sealos)

如果您希望快速体验而不想配置本地环境，可以使用 Sealos 公有云进行一键部署。

步骤一：部署模型服务

访问部署模板链接（需替换为实际可用的 Sealos 模板地址）。
点击右上角的「去 Sealos 部署」按钮。
如果是首次使用，需要注册登录 Sealos 公有云账号，登录后会自动跳转到模板部署页面。
点击「部署应用」开始部署，完成后点击应用的「详情」进入详情页。
等待实例状态变为 running。

部署完成后，默认会提供一个与 OpenAI 官方接口对齐的 API。您可以在终端通过 API 进行测试。内网地址通常在应用详情中提供，可直接复制。

步骤二：部署 WebUI

为了更直观地使用，可以部署一个 WebUI，例如 Lobe Chat、ChatGPT Next Web 等。本文以 Lobe Chat 为例。

打开 Lobe Chat 部署模板链接。
填写三个环境变量：
- OPENAI_PROXY_URL：填入刚才复制的内网 API 接口地址，记得末尾加上 /v1。
- OPENAI_MODEL_LIST：填入模型名称，例如 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF。
- OPENAI_API_KEY：随意填写一个字符串即可。
点击「部署应用」，等待实例状态变为 running。
点击外网地址即可打开 Lobe Chat 的可视化界面。

步骤三：切换模型与测试

在 Lobe Chat 界面顶部，点击当前的模型名称（如 gpt-3.5-turbo）。
在下拉框中选择 Llama3-8B-Chinese-Chat.q4_k_m.GGUF。
现在可以与模型进行对话。建议先测试一些逻辑推理或数学问题验证效果。

注意：该应用模板默认分配的资源可能有限（如 8 核 CPU），且未跑满硬件性能，效果可能不如 GPU 部署。有条件的同学建议直接使用 GPU 部署 70B 模型以获得最佳体验。

Llama3 中文大模型本地与云端部署实战

量化方案选择

环境准备

云端快速部署 (Sealos)

步骤一：部署模型服务

步骤二：部署 WebUI

步骤三：切换模型与测试

本地 API 测试示例

更多推荐文章

相关免费在线工具

本地替代方案：Ollama

性能优化建议

总结

更多推荐文章

相关免费在线工具

Llama3 中文大模型本地与云端部署实战

量化方案选择

环境准备

云端快速部署 (Sealos)

步骤一：部署模型服务

步骤二：部署 WebUI

步骤三：切换模型与测试

本地 API 测试示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

本地替代方案：Ollama

性能优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具