大模型微调后部署实战:GGUF 转换与 ModelScope 托管
上一篇文章我们聊了 LLaMAFactory 和 ModelScope 的微调流程,今天接着把最后一块拼图补上——如何把微调好的模型部署起来,并分享给社区。
本次演示基于魔搭社区(ModelScope)环境,重点讲解如何将 HF 格式转换为 GGUF,并通过 llama.cpp 进行本地或服务端部署。
一、将模型转换为 GGUF 格式
为了让模型能在本地高效运行,我们需要将其转换为 llama.cpp 支持的 GGUF 格式。这一步是轻量级部署的关键。
1. 准备 llama.cpp 环境
首先克隆仓库并安装依赖。注意,这里需要用到 convert_hf_to_gguf.py 脚本。
# 进入工作目录
cd /mnt/workspace
# 克隆 llama.cpp 仓库
git clone https://github.com/ggerganov/llama.cpp.git
# 进入仓库目录
cd llama.cpp
# 创建并激活虚拟环境
python -m venv .venv
source .venv/bin/activate
# 安装 Python 依赖
pip install -r requirements.txt
2. 执行格式转换
准备好环境后,直接调用转换脚本。这里以 Qwen3-4B 为例,使用 q8_0 量化等级,平衡精度与体积。
python convert_hf_to_gguf.py \
/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
--outtype q8_0 \
--verbose \
--outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf
执行完成后,生成的 .gguf 文件会保存在指定路径下,后续部署都会用到它。
二、模型部署方案
转换好格式后,我们有两种主流方式加载模型:命令行交互模式和服务端 API 模式。
1. 使用 llama.app (推荐)
GitHub 上的 llama.cpp 项目提供了便捷的部署工具,支持 macOS/Linux 一键安装。
安装依赖
如果系统未安装 Homebrew,先执行安装命令:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
随后安装 llama.cpp 组件:
brew install llama.cpp
命令行交互模式 (CLI)
适合快速测试模型效果,直接在终端对话。
llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf
启动后即可在命令行输入问题,模型会实时生成回复。
服务端模式 (Server)
如果需要集成到其他应用,可以启动 HTTP 服务。默认监听 8080 端口。
llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080
启动成功后,浏览器访问 http://localhost:8080 即可看到 Web UI。API 接口地址为 http://localhost:8080/v1/chat/completions。
2. 关于 Ollama 的兼容性提示
虽然 Ollama 也是流行的本地部署工具,但截至目前,部分新模型(如 Qwen3)可能尚未完全支持。如果遇到启动报错,建议优先回退到 llama.cpp 方案进行测试,稳定性更有保障。
三、上传至 ModelScope 分享模型
模型跑通后,如果想分享给团队或社区,可以通过 ModelScope 上传 GGUF 版本。
1. 获取凭证
登录 ModelScope 后台,分别获取 Access Token 和用户名。
- Token 获取:https://www.modelscope.cn/my/access/token
- 用户名查看:https://www.modelscope.cn/my/settings/account
注意:请妥善保管 Token,不要泄露给他人。
2. 上传模型
使用 modelscope 命令行工具上传。请将 <your_username> 替换为你的实际用户名。
modelscape upload <your_username>/qwen3-4b-sft-merged-gguf \
/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
--token <your_token>
3. 验证与下载
上传完成后,可在个人空间查看结果。若需从云端拉取模型,可参考以下命令:
pip install modelscope
modelscope download --model <your_username>/qwen3-4b-sft-merged-gguf
在 Windows 环境下,模型缓存通常位于 C:\Users\PC\.cache\modelscope\hub\models\... 目录下。
四、总结
这套流程涵盖了从微调结束后的格式转换、本地部署验证,到云端托管分享的完整闭环。核心在于利用 llama.cpp 工具链实现 HF 模型到 GGUF 的高效转化,既保证了轻量化运行的性能,又通过 ModelScope 实现了模型的便捷分发。对于希望落地私有化大模型的场景,这套工程化方案值得参考复用。


