LLaMAFactory、ModelScope 大模型微调实战(下)

LLaMAFactory、ModelScope 大模型微调实战(下)

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调,今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区(https://www.modelscope.cn/my/mynotebook

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后,gguf 文件会保存在 

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app (推荐)

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app 

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型(cli模式)

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型(server模式)

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama 

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错,这是因为我们使用的Qwen3模型,ollama还没有支持,建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子,模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践,通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换,借助 llama.app 完成 CLI 与 Server 模式部署,并记录了 Ollama 部署 Qwen3 模型时的兼容问题,同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心,步骤清晰、可直接复现,为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考,也为后续同类模型的落地与优化奠定了基础。

Read more

AI Agent 入门:什么是执行式智能体,一文看懂

AI Agent 入门:什么是执行式智能体,一文看懂

AI Agent 入门:什么是执行式智能体,一文看懂 📝 本章学习目标:本章是入门认知部分,帮助零基础读者建立对AI Agent的初步认知。通过本章学习,你将全面掌握"AI Agent 入门:什么是执行式智能体,一文看懂"这一核心主题。 一、引言:为什么这个话题如此重要 在AI Agent快速发展的今天,AI Agent 入门:什么是执行式智能体,一文看懂已经成为每个开发者和研究者必须了解的核心知识。无论你是技术背景还是非技术背景,理解这一概念都将帮助你更好地把握AI时代的机遇。 1.1 背景与意义 💡 核心认知:AI Agent正在从"对话工具"进化为"执行引擎",能够主动完成任务、调用工具、与外部世界交互。这一变革正在深刻改变我们的工作和生活方式。 从2023年AutoGPT的横空出世,到如今百花齐放的Agent生态,

Obsidian+Claude Code打造本地AI知识库

Claudian + Obsidian Skills 1. 核心组件 * Claudian: Obsidian 第三方插件(暂未上架官方市场),适配 Claude Code。 * Obsidian Skills: 由 Obsidian CEO (Kepano) 发布的 Skill 包,赋予 AI 处理 Canvas、Markdown 及数据库的能力。 2. 环境部署流程 2.1 安装 Claudian 插件 (手动旁加载) 1. 获取文件: 访问 GitHub 仓库 claudian,下载以下三个核心文件: * main.js * manifest.json * styles.css 2. 放置插件:

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

文章目录 * 保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程 * 🌟 引言 * 第一步:环境准备 * 1. 安装 Node.js * 2. 安装 Git * 第二步:安装 OpenClaw * 方式一:使用 npm 全局安装(通用推荐) * 方式二:Windows 快捷安装脚本 * 第三步:首次运行与初始化配置 (Onboard) * 1. 环境依赖检查 * 2. 向导配置流程 * 3. 网关启动与测试 * 第四步:进阶玩法——将 OpenClaw 接入钉钉机器人 * 1. 创建钉钉企业内部应用 * 2. 通过 npm 安装钉钉插件 * 3. 测试通道通讯

Java开发者必看:从零搭建可落地的AI Agent,这篇实战指南够硬核

Java开发者必看:从零搭建可落地的AI Agent,这篇实战指南够硬核

随着AI Agent概念的爆火,很多Java开发者都在问:“怎么用Java搭建属于自己的AI Agent?”“现有Java技术栈能适配AI Agent的核心需求吗?”“有没有可直接复用的实战方案?” 答案是:完全可以。Java的稳定性、丰富的生态库(如Spring、LangChain4j)以及成熟的企业级应用适配能力,其实是搭建生产级AI Agent的优质选择。本文就从核心原理、技术选型、实战搭建、优化技巧四个维度,带大家从零打造一个能自主完成“数据查询-结果分析-报告生成”的Java AI Agent,全程干货,可直接落地。 先理清核心逻辑:Java AI Agent的底层架构是什么? 不管是用哪种语言开发,AI Agent的核心都是“目标拆解-工具调用-步骤执行-结果反馈”的闭环。对应到Java技术栈,一个可落地的AI Agent架构主要包含5个核心模块,用一张图就能看懂(文字拆解如下): 1. 指令解析模块:接收用户自然语言指令,转化为AI可理解的结构化目标(比如把“统计近30天订单数据并生成报表”拆解为“查询订单表→