LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

08 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

MK米客方德SD NAND:无人机存储的高效解决方案

在无人机技术迅猛发展的当下，飞控系统的数据记录对于飞行性能剖析、故障排查以及飞行安全保障极为关键。以往，SD 卡是飞控 LOG 记录常见的存储介质，但随着技术的革新，新的存储方案不断涌现。本文聚焦于以 ESP32 芯片为主控制器的无人机，创新性采用 SD NAND 芯片 MKDV32GCL-STPA 芯片进行 SD NAND 存储，测试其在飞控 LOG 记录功能中的表现。米客方德 SD NAND 芯片特性免驱动优势：与普通存储设备不同，在该应用场景下，SD NAND 无需编写复杂的驱动程序。这极大地简化了开发流程，缩短了开发周期，减少了潜在的驱动兼容性问题，让开发者能够更专注于实现核心功能。自带坏块管理功能：存储设备出现坏块难以避免，而 MKDV32GCL - STPA 芯片自带的坏块管理机制可自动检测并处理坏块。这确保了数据存储的可靠性，避免因坏块导致的数据丢失或错误写入，提升了整个存储系统的稳定性。尺寸小巧与强兼容性：

Java 大视界 -- Java 大数据在智能家居环境监测与智能调节中的应用拓展（423）

Java 大视界 -- Java 大数据在智能家居环境监测与智能调节中的应用拓展（423） * 引言： * 快速上手指南：3 步跑通智能家居 Demo（新手友好） * Step 1：环境准备（必装软件清单） * Step 2：代码运行（按顺序执行） * Step 3：效果验证（用 Postman 模拟数据） * 正文： * 一、智能家居环境监测与调节的核心痛点 * 1.1 设备数据的 “异构化” 困境 * 1.1.1 多源数据的 “协议壁垒” * 1.1.2 数据规模的 “爆发式增长” * 1.2 实时调节的 “滞后性” 痛点 * 1.

Clawdbot(Moltbot) 飞书机器人配置，体验老板和助手沟通的感觉

一、背景说明 Clawdbot可以24小时待命（参考配置方式：Clawdbot(Moltbot) windows安装配置教程(含各种问题处理)），但是网页端使用起来比毕竟没那么方便，然而clawdbot支持多种渠道交互，这也正是这个AI助理的魅力所在，想想飞书发送一个消息，一个任务就完成了，这不就是老板指挥我做事的方式吗，来赶紧体验一波老板的感觉~ 二、飞书机器人创建飞书开放平台构建机器人：https://open.feishu.cn/ 记录App ID 和 App Secret，一会要用：三、自动安装插件项目地址：https://github.com/m1heng/Clawdbot-feishu 这时候，就可以发挥clawdbot的能力了，直接让clawdbot给我安装：我要安装飞书机器人，帮我按照这个命令安装：Clawdbot plugins install @m1heng-clawd/feishu 到这个过程有点慢，安装了好一会没反应，我开始问了：又过了好一会没反应，

程序员的自我修养：用 AR 眼镜管理健康

欢迎文末添加好友交流，共同进步！ “ 俺はモンキー・D・ルフィ。海贼王になる男だ！” * 一、从一次体检说起 * 二、为什么是 AR 眼镜？ * 三、技术选型：CXR-M SDK vs 灵珠平台 * 四、项目架构设计 * 五、从配置开始：Gradle 和权限 * 5.1 添加 SDK 依赖 * 5.2 权限配置 * 六、数据层实现 * 6.1 数据模型 * 6.2 数据仓库 * 七、SDK 封装层 * 7.1 发送提醒到眼镜 * 7.2 TTS 语音播报