LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

10 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

告别兼容性烦恼！在Mac Big Sur上使用OpenClaw+OpenCode+OpenSpec实现全自动化AI开发流程

告别兼容性烦恼！在Mac Big Sur上使用OpenClaw+OpenCode+OpenSpec实现全自动化AI开发流程 🚀 引言：AI 自动化开发三件套如果你关注 AI 辅助编程，最近一定听说过这三个工具： * OpenClaw：个人 AI 助手框架，擅长调度任务、管理记忆、调用工具，是整个流程的“指挥官”。 * OpenCode：AI 编程代理，能够深入理解代码库、自动修改代码、运行测试，是真正的“一线工程师”。 * OpenSpec：规范驱动框架，将模糊的需求转化为结构化的任务清单（tasks.md），是项目的“施工蓝图”。三者结合，可以构建一个从需求分析到代码落地的全自动化开发流水线。你只需要提出想法，AI 就能自主完成代码编写、调试和提交。然而，很多开发者（包括我）还在使用 macOS 11 Big

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型 * 前言 * 环境要求 * 相关介绍 * 微调 Stable Diffusion 3.5 LoRA 文生图模型 * 下载Stable Diffusion 3.5 LoRA Fine-Tuning项目 * Windows * Linux * 准备数据集 * metadata.jsonl，内容如下。 * 下载预训练模型 * Hugging Face * Model Scope * 进行训练 * 输出结果 * 进行预测 * 输出结果 * 参考前言由于本人水平有限，难免出现错漏，敬请批评改正。更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、

量化、算子融合、内存映射：C语言实现AI推理的“三板斧“

量化、算子融合、内存映射：C语言实现AI推理的"三板斧" 摘要：做嵌入式AI开发的同学，大概率都遇到过这样的困境：训练好的AI模型（比如CNN），在PC上用TensorFlow/PyTorch跑起来流畅丝滑，可移植到单片机、MCU等边缘设备上，要么内存爆掉，要么推理延迟高到无法使用——毕竟边缘设备的资源太有限了：几百KB的RAM、几MB的Flash、没有GPU加速，甚至连浮点运算都要靠软件模拟。这时，依赖庞大的深度学习框架就成了“杀鸡用牛刀”，甚至根本无法运行。而C语言，作为嵌入式开发的“母语”，凭借其极致的性能控制、内存可控性和无 runtime 依赖的优势，成为边缘设备AI推理引擎的最佳选择。但纯C语言实现AI推理，绝不是简单地“用C重写框架代码”，关键在于掌握三大核心优化技术——这就是我们今天要讲的AI推理“三板斧”：量化、算子融合、内存映射。它们三者协同作用，能从“体积、速度、内存”三个维度彻底优化AI推理性能：

Qwen vs Stable Diffusion：儿童风格图片生成部署对比评测

Qwen vs Stable Diffusion：儿童风格图片生成部署对比评测 1. 为什么儿童向图片生成需要专门优化？给小朋友看的图片，不是随便画得可爱就行。它得安全、温和、色彩明亮、造型圆润，不能有尖锐线条、复杂背景或任何可能引发不安的元素。很多通用模型生成的动物图，要么太写实吓人，要么细节混乱——比如长了三只眼睛的兔子、背景里突然冒出的模糊人影，或者颜色阴沉的森林场景。这些在成人内容里可能只是小瑕疵，在儿童场景里却是硬性红线。 Qwen_Image_Cute_Animal_For_Kids 这个镜像，不是简单套了个“儿童”标签。它背后是通义千问多模态能力的定向蒸馏与风格对齐：训练数据全部来自经过人工筛选的低龄向插画资源库，提示词模板固化为“soft lighting, rounded shapes, pastel colors, friendly expression, no text, no complex background”，连采样步数和CFG值都预设为对萌系特征最友好的区间。