大模型微调后部署实战：GGUF 转换与 ModelScope 托管 | 极客日志

PythonAI算法

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

大模型部署实战全流程，涵盖微调后模型从 HF 格式转 GGUF、llama.cpp 本地 CLI 与服务端部署、以及 ModelScope 平台上传分享。重点解决了 Ollama 兼容性问题，提供可直接复现的环境搭建与命令操作指南，为轻量化模型落地提供工程化参考。

松间照月发布于 2026/4/7更新于 2026/7/2440 浏览

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

上一篇文章我们聊了 LLaMAFactory 和 ModelScope 的微调流程，今天接着把最后一块拼图补上——如何把微调好的模型部署起来，并分享给社区。

本次演示基于魔搭社区（ModelScope）环境，重点讲解如何将 HF 格式转换为 GGUF，并通过 llama.cpp 进行本地或服务端部署。

一、将模型转换为 GGUF 格式

为了让模型能在本地高效运行，我们需要将其转换为 llama.cpp 支持的 GGUF 格式。这一步是轻量级部署的关键。

1. 准备 llama.cpp 环境

首先克隆仓库并安装依赖。注意，这里需要用到 convert_hf_to_gguf.py 脚本。

# 进入工作目录
cd /mnt/workspace

# 克隆 llama.cpp 仓库
git clone https://github.com/ggerganov/llama.cpp.git

# 进入仓库目录
cd llama.cpp

# 创建并激活虚拟环境
python -m venv .venv
source .venv/bin/activate

# 安装 Python 依赖
pip install -r requirements.txt

2. 执行格式转换

准备好环境后，直接调用转换脚本。这里以 Qwen3-4B 为例，使用 q8_0 量化等级，平衡精度与体积。

python convert_hf_to_gguf.py \
    /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
    --outtype q8_0 \
    --verbose \
    --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行完成后，生成的 .gguf 文件会保存在指定路径下，后续部署都会用到它。

二、模型部署方案

转换好格式后，我们有两种主流方式加载模型：命令行交互模式和服务端 API 模式。

1. 使用 llama.app (推荐)

GitHub 上的 llama.cpp 项目提供了便捷的部署工具，支持 macOS/Linux 一键安装。

安装依赖

如果系统未安装 Homebrew，先执行安装命令：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

随后安装 llama.cpp 组件：

brew install llama.cpp

命令行交互模式 (CLI)

适合快速测试模型效果，直接在终端对话。

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

启动后即可在命令行输入问题，模型会实时生成回复。

服务端模式 (Server)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080

modelscape upload <your_username>/qwen3-4b-sft-merged-gguf \
    /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
    --token <your_token>

pip install modelscope
modelscope download --model <your_username>/qwen3-4b-sft-merged-gguf

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

一、将模型转换为 GGUF 格式

1. 准备 llama.cpp 环境

2. 执行格式转换

二、模型部署方案

1. 使用 llama.app (推荐)

安装依赖

命令行交互模式 (CLI)

服务端模式 (Server)

更多推荐文章

相关免费在线工具

2. 关于 Ollama 的兼容性提示

三、上传至 ModelScope 分享模型

1. 获取凭证

2. 上传模型

3. 验证与下载

四、总结

更多推荐文章

相关免费在线工具

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

大模型微调后部署实战：GGUF 转换与 ModelScope 托管

一、将模型转换为 GGUF 格式

1. 准备 llama.cpp 环境

2. 执行格式转换

二、模型部署方案

1. 使用 llama.app (推荐)

安装依赖

命令行交互模式 (CLI)

服务端模式 (Server)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 关于 Ollama 的兼容性提示

三、上传至 ModelScope 分享模型

1. 获取凭证

2. 上传模型

3. 验证与下载

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具