Meta 于美国当地时间 4 月 18 日在官网发布了两款开源大模型,参数分别达到 80 亿 (8B) 和 700 亿 (70B)。这两款模型是目前同体量下性能最好的开源模型,直接逼近了一线顶级商业模型 GPT-4 和 Claude3。与此同时,一个 400B 的超大杯模型也在研发中。
虽然才过去短短几日,HuggingFace 上已经涌现了非常多的 Llama3 中文微调版。想部署一个 Llama3 中文版,对于没有 GPU 的同学,可以使用微调的量化模型来运行 CPU。
量化方案选择
不同的量化方法会带来不同的性能损失,选择合适的量化级别至关重要:
- 8bit 量化:几乎没有性能损失,适合对精度要求极高的场景。
- AWQ 4bit 量化:对 8B 模型来说有约 2% 性能损失,对 70B 模型只有 0.05% 性能损失。
- 低 Bit 量化:参数越大的模型,低 bit 量化损失越低。AWQ 3bit 70B 也只有 2.7% 性能损失,完全可接受。
综合建议:如果追求无任何性能损失,8B 模型用 8bit 量化,70B 模型用 4bit 量化。如果能接受 2-3% 损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。
目前效果较好的中文微调版模型通常基于 shenzhi-wang/Llama3-8B-Chinese-Chat 等社区版本,该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M 及弱智吧数据集进行训练,使模型能够流畅使用中文回答用户提问。
环境准备
在开始部署前,请确保您的开发环境满足以下基础条件:
- Python 3.9 或更高版本
- pip 包管理器
- Git 用于克隆代码仓库
- 足够的磁盘空间(建议至少 20GB 用于模型文件)
云端快速部署 (Sealos)
如果您希望快速体验而不想配置本地环境,可以使用 Sealos 公有云进行一键部署。
步骤一:部署模型服务
- 访问部署模板链接(需替换为实际可用的 Sealos 模板地址)。
- 点击右上角的「去 Sealos 部署」按钮。
- 如果是首次使用,需要注册登录 Sealos 公有云账号,登录后会自动跳转到模板部署页面。
- 点击「部署应用」开始部署,完成后点击应用的「详情」进入详情页。
- 等待实例状态变为 running。
部署完成后,默认会提供一个与 OpenAI 官方接口对齐的 API。您可以在终端通过 API 进行测试。内网地址通常在应用详情中提供,可直接复制。
步骤二:部署 WebUI
为了更直观地使用,可以部署一个 WebUI,例如 Lobe Chat、ChatGPT Next Web 等。本文以 Lobe Chat 为例。
- 打开 Lobe Chat 部署模板链接。
- 填写三个环境变量:
OPENAI_PROXY_URL:填入刚才复制的内网 API 接口地址,记得末尾加上/v1。OPENAI_MODEL_LIST:填入模型名称,例如+Llama3-8B-Chinese-Chat.q4_k_m.GGUF。OPENAI_API_KEY:随意填写一个字符串即可。
- 点击「部署应用」,等待实例状态变为 running。
- 点击外网地址即可打开 Lobe Chat 的可视化界面。
步骤三:切换模型与测试
- 在 Lobe Chat 界面顶部,点击当前的模型名称(如 gpt-3.5-turbo)。
- 在下拉框中选择
Llama3-8B-Chinese-Chat.q4_k_m.GGUF。 - 现在可以与模型进行对话。建议先测试一些逻辑推理或数学问题验证效果。
注意:该应用模板默认分配的资源可能有限(如 8 核 CPU),且未跑满硬件性能,效果可能不如 GPU 部署。有条件的同学建议直接使用 GPU 部署 70B 模型以获得最佳体验。


