LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

10 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

FPGA读写DDR4 (一)MIG IP核控制信号

前言这几个星期在倒腾DDR4内存的读写控制，期间看了不少资料，这几天终于完工了于是想着把做过的内容总结一下，于是有了这篇文章，由于控制DDR4的内容很多，这一篇文章就只讲基础的，也就是DDR4的控制IP核 MIG的控制信号。主要参考内容：【正点原子】MPSoC-P4之FPGA开发指南_V2.0，[XILINX] pg150-ultrascale-memory-ip-en-us-1.4 MIG IP核控制信号 IP核创建界面 MIG IP核（memory interface generator）是用户与DDR4进行沟通的桥梁，因为如果我们自己去写直接DDR4代码的话，其内容将会非常复杂，而且即便写出来其性能可能也不会好，以XILINX提供的MIG IP核为例，在综合布线后查看utilization，能发现MIG IP核足足使用了约7500个LUT和9000个register资源，足以看出其编写的复杂，不过对于我们普通用户，能够操作MIG提供的用户接口就我觉得就算差不多了，既然要使用IP核，我们就从IP核的创建界面开始说起，

什么是虚拟现实（VR）？

目录 1 虚拟现实的概念 2 虚拟现实的发展历程 2.1 概念萌芽期 2.2 研发初期 2.3 技术积累期 2.4 产品探索期 2.5 产品化初期 2.6 产品化发展期 3 虚拟现实相关技术 3.1 基础核心 3.2 引擎与工具 3.3 建模工具 3.4 VR人机交互 1 虚拟现实的概念虚拟现实（Virtual Reality，简称 VR）是一门利用计算机模拟生成一个三维的、沉浸式的数字环境，并通过多感官交互手段，使用户产生“身临其境”感觉的技术。

Spring Boot 集成 Neo4j 图数据库实战教程

在当今大数据时代，传统的关系型数据库在处理复杂关系网络时往往力不从心。Neo4j 作为领先的图数据库，能够高效地存储和查询海量关系数据。本文将详细介绍如何在 Spring Boot 项目中集成 Neo4j，并提供完整的实战案例，帮助读者快速掌握图数据库的开发技巧。一、图数据库概述与 Neo4j 简介 1.1 为什么选择图数据库在传统的关系型数据库中，当我们需要查询"朋友的朋友"这样的多跳关系时，往往需要编写复杂的多表关联查询，性能随关系层数增加呈指数级下降。而图数据库天然适合处理这类场景，它将数据之间的关系作为核心Citizens，利用图遍历算法高效地查询关系网络。图数据库的核心优势体现在以下几个方面。首先是性能优势，对于深度关系查询，图数据库的性能是关系型数据库的数倍甚至数十倍。其次是灵活性优势，图数据库的 schema 更加灵活，可以随时添加新的节点类型和关系类型，而无需修改表结构。第三是表达力优势，图的数据模型更加直观，使用节点和边来描述现实世界的关系，与人类的思维方式更加契合。 Neo4j 是目前最流行的图数据库之一，它使用 Cypher 查询语言，具有高性能

OpenREALM：无人机实时映射框架的技术深度解析

在无人机应用日益广泛的当下，精准、高效的实时映射技术成为推动行业发展的关键。传统无人机映射方案往往存在数据处理滞后、对复杂地形适应性差等问题，难以满足精准农业、应急救援等场景的实时决策需求。OpenREALM 作为一款开源的无人机实时映射框架，创新性地融合了视觉 SLAM、单目稠密重建等前沿技术，实现了从 2D 图像拼接至 3D 表面重建的多模式映射功能。原文链接：https://arxiv.org/pdf/2009.10492 代码链接：https://github.com/laxnpander/OpenREALM 沐小含持续分享前沿算法论文，欢迎关注... 一、引言：无人机映射技术的现状与挑战 1.1 应用背景与核心需求人类对世界的勘测需求推动了映射技术的持续发展，而无人机的兴起为空中勘测提供了全新的解决方案。空中影像已广泛应用于精准农业、城市规划、灾害风险管理等关键领域，这些应用场景不仅对数据分辨率有较高要求，更在可用性、成本和映射效率方面提出了严苛标准。传统的有人机勘测存在操作复杂、成本高昂等局限，而无人机凭借轻量化设计、自主飞行能力强等优势，