跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

大模型微调后部署实战:GGUF 转换与 ModelScope 托管

综述由AI生成大模型部署实战全流程,涵盖微调后模型从 HF 格式转 GGUF、llama.cpp 本地 CLI 与服务端部署、以及 ModelScope 平台上传分享。重点解决了 Ollama 兼容性问题,提供可直接复现的环境搭建与命令操作指南,为轻量化模型落地提供工程化参考。

松间照月发布于 2026/4/7更新于 2026/5/2314 浏览
大模型微调后部署实战:GGUF 转换与 ModelScope 托管

大模型微调后部署实战:GGUF 转换与 ModelScope 托管

上一篇文章我们聊了 LLaMAFactory 和 ModelScope 的微调流程,今天接着把最后一块拼图补上——如何把微调好的模型部署起来,并分享给社区。

本次演示基于魔搭社区(ModelScope)环境,重点讲解如何将 HF 格式转换为 GGUF,并通过 llama.cpp 进行本地或服务端部署。

一、将模型转换为 GGUF 格式

为了让模型能在本地高效运行,我们需要将其转换为 llama.cpp 支持的 GGUF 格式。这一步是轻量级部署的关键。

1. 准备 llama.cpp 环境

首先克隆仓库并安装依赖。注意,这里需要用到 convert_hf_to_gguf.py 脚本。

# 进入工作目录
cd /mnt/workspace

# 克隆 llama.cpp 仓库
git clone https://github.com/ggerganov/llama.cpp.git

# 进入仓库目录
cd llama.cpp

# 创建并激活虚拟环境
python -m venv .venv
source .venv/bin/activate

# 安装 Python 依赖
pip install -r requirements.txt

2. 执行格式转换

准备好环境后,直接调用转换脚本。这里以 Qwen3-4B 为例,使用 q8_0 量化等级,平衡精度与体积。

python convert_hf_to_gguf.py \
    /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
    --outtype q8_0 \
    --verbose \
    --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行完成后,生成的 .gguf 文件会保存在指定路径下,后续部署都会用到它。

二、模型部署方案

转换好格式后,我们有两种主流方式加载模型:命令行交互模式和服务端 API 模式。

1. 使用 llama.app (推荐)

GitHub 上的 llama.cpp 项目提供了便捷的部署工具,支持 macOS/Linux 一键安装。

安装依赖

如果系统未安装 Homebrew,先执行安装命令:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

随后安装 llama.cpp 组件:

brew install llama.cpp
命令行交互模式 (CLI)

适合快速测试模型效果,直接在终端对话。

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

启动后即可在命令行输入问题,模型会实时生成回复。

服务端模式 (Server)

如果需要集成到其他应用,可以启动 HTTP 服务。默认监听 8080 端口。

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080

启动成功后,浏览器访问 http://localhost:8080 即可看到 Web UI。API 接口地址为 http://localhost:8080/v1/chat/completions。

2. 关于 Ollama 的兼容性提示

虽然 Ollama 也是流行的本地部署工具,但截至目前,部分新模型(如 Qwen3)可能尚未完全支持。如果遇到启动报错,建议优先回退到 llama.cpp 方案进行测试,稳定性更有保障。

三、上传至 ModelScope 分享模型

模型跑通后,如果想分享给团队或社区,可以通过 ModelScope 上传 GGUF 版本。

1. 获取凭证

登录 ModelScope 后台,分别获取 Access Token 和用户名。

  • Token 获取:https://www.modelscope.cn/my/access/token
  • 用户名查看:https://www.modelscope.cn/my/settings/account

注意:请妥善保管 Token,不要泄露给他人。

2. 上传模型

使用 modelscope 命令行工具上传。请将 <your_username> 替换为你的实际用户名。

modelscape upload <your_username>/qwen3-4b-sft-merged-gguf \
    /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged \
    --token <your_token>

3. 验证与下载

上传完成后,可在个人空间查看结果。若需从云端拉取模型,可参考以下命令:

pip install modelscope
modelscope download --model <your_username>/qwen3-4b-sft-merged-gguf

在 Windows 环境下,模型缓存通常位于 C:\Users\PC\.cache\modelscope\hub\models\... 目录下。

四、总结

这套流程涵盖了从微调结束后的格式转换、本地部署验证,到云端托管分享的完整闭环。核心在于利用 llama.cpp 工具链实现 HF 模型到 GGUF 的高效转化,既保证了轻量化运行的性能,又通过 ModelScope 实现了模型的便捷分发。对于希望落地私有化大模型的场景,这套工程化方案值得参考复用。

目录

  1. 大模型微调后部署实战:GGUF 转换与 ModelScope 托管
  2. 一、将模型转换为 GGUF 格式
  3. 1. 准备 llama.cpp 环境
  4. 进入工作目录
  5. 克隆 llama.cpp 仓库
  6. 进入仓库目录
  7. 创建并激活虚拟环境
  8. 安装 Python 依赖
  9. 2. 执行格式转换
  10. 二、模型部署方案
  11. 1. 使用 llama.app (推荐)
  12. 安装依赖
  13. 命令行交互模式 (CLI)
  14. 服务端模式 (Server)
  15. 2. 关于 Ollama 的兼容性提示
  16. 三、上传至 ModelScope 分享模型
  17. 1. 获取凭证
  18. 2. 上传模型
  19. 3. 验证与下载
  20. 四、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Rust 异步并发安全与内存管理最佳实践
  • 使用 LangChain 构建开源大语言模型智能体实践
  • Flutter anthropic_sdk_dart 鸿蒙化适配指南
  • Ollama 本地大语言模型部署与使用指南
  • Python 使用 MCP 协议调用高德地图天气服务示例
  • 大模型技术学习指南:从基础理论到高级应用路线
  • GitHub 学生认证与 PyCharm 配置 Copilot 全流程指南
  • 基于 uni-app 与 DeepSeek 的跨端 AI 流式对话系统实战
  • AIGC 视频生成成本优化实战:文字 + 图片输入下 20 秒与 30 秒模型选型与价格对比
  • 新版 PyCharm 远程连接 SSH 配置指南
  • AI 安全:Stable Diffusion 视觉提示词注入攻击原理与实现
  • GTC 2026 深度解析:Blackwell 架构升级与 AI Agent 落地实战
  • 嵌入式 Linux 实战:基于泰山派的 AI 网络摄像头
  • Microsoft Visual C++ Runtime 下载指南
  • eBay 商品数据采集实战:基于网页抓取 API 的 Python 接入方案
  • Stable Diffusion 3.5 中文云端使用教程
  • Java 异常处理:try-with-resources 自动关闭资源详解
  • 智慧生活商城系统设计与实现 SpringBoot Vue MySQL
  • C++ STL list 容器特性与底层原理
  • 临床智能体AI与环境感知AI的融合:基于python的医疗自然语言处理深度分析

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online