一、前言
上次简单介绍了 LLaMAFactory、ModelScope 的微调,今天总结如何部署已经微调好的大模型。
本次演示基于魔搭社区(https://www.modelscope.cn/my/mynotebook)
二、将模型转换为 gguf
2.1 克隆 llama.cpp 并安装环境依赖
# 进入根目录
cd /mnt/workspace
# 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本转换
git clone https://github.com/ggerganov/llama.cpp.git
# 进入 llama.cpp 文件夹
cd llama.cpp
# 创建虚拟环境
python -m venv .venv
# 进入虚拟环境
source .venv/bin/activate
# 安装依赖
pip install -r requirements.txt
2.2 转换模型为 gguf
python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
--outtype q8_0 --verbose \
--outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf
执行结束后,gguf 文件会保存在 /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf。
三、部署
3.1 基于 llama.cpp(推荐)
GitHub: https://github.com/ggml-org/llama.cpp
3.1.1 安装 llama.cpp
可参考官方文档:https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux
brew install llama.cpp
如果提示未安装 brew,执行下面的命令:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
3.1.2 加载大模型(CLI 模式)
llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf
可在命令行跟大模型提问。


