从 0 到 1!Qwen3.5 系列开源大模型本地部署全流程(ModelScope)

从 0 到 1!Qwen3.5 系列开源大模型本地部署全流程(ModelScope)
【本文作者:Troy】

1.Qwen

Qwen3.5是阿里云通义千问团队发布的新一代开源大模型系列,是提供基础智能能力的“大脑”。主要是作为基础模型,本身具备强大的文本生成、复杂推理、多模态理解(如图像、视频)和工具调用等能力。适用于希望直接使用高性能大模型,或将其作为基座进行二次开发的个人、研究者和企业。

可访问魔搭社区:https://www.modelscope.cn/models?name=qwen3.5&page=1&tabKey=task 

Qwen3.5 具备以下增强特性:

  • 统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际表现与 Qwen3 持平,并优于 Qwen3-VL 模型。
  • 高效混合架构:门控 Delta 网络与稀疏混合专家(Mixture-of-Experts)相结合,实现高吞吐推理,同时保持极低延迟和成本开销。
  • 可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而获得强大的现实世界适应能力。
  • 全球语言覆盖:支持扩展至 201 种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。
  • 下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

文件名其中B代表billion,即十亿,指的是模型的参数量,例如:2B=参数量为20亿;一般来说,参数量越大的模型,其“记忆体”和“计算单元”越多,能够学习到的知识更丰富,处理复杂逻辑推理的能力也越强。参数量也直接决定了运行这个模型所需要的内存(显存)和存储空间。

考虑到本地个人电脑(无独显)硬件配置,此处选择【Qwen3.5-0.8B-GGUF】举例子,详情见:https://www.modelscope.cn/models/unsloth/Qwen3.5-0.8B-GGUF/summary

其中【模型介绍】描述基准测试结果关于不同模型间的比较,可自行阅读;

点击【下载模型】,个人觉得【命令行下载】较方便,遂执行命令行,文件默认下载至【C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF】

GGUF是一种专为大型语言模型(LLM)设计的二进制文件格式,全称是GPT-Generated Unified Format(GPT生成统一格式)。可以理解为一个经过高度优化和打包的模型“压缩包”,其核心目标就是让庞大的AI模型能在普通电脑上更快地加载和运行。

Qwen3.5-0.8B-Q4_K_M.gguf (推荐):平衡性最好,质量与大小的黄金比例;适用于日常对话、文本生成,兼顾速度和效果;

Qwen3.5-0.8B-Q3_K_S.gguf (高速):文件最小,运行最快,但质量略有下降;

Qwen3.5-0.8B-Q5_K_M.gguf (高质量):质量更好,接近原始模型,但文件稍大,占用内存更多;

不建议使用的文件:

mmproj-*.gguf:这些是多模态投影文件,纯文本模型不需要;

Qwen3.5-0.8B-BF16.gguf:这是未量化的完整模型,约1.4GB,内存占用太大;

Qwen3.5-0.8B-Q8_0.gguf:质量提升有限但体积大很多;

文件名含义:

Q4/Q5/Q8:量化位数,越高质量越好但文件越大;

K_M/K_S:K表示K-quants量化方法,M是中等质量,S是小体积;

IQ:改进型量化,压缩率更高;

2.Ollama

Ollama是一个开源、轻量级的工具,可以让你在个人电脑上轻松运行大型语言模型(如Llama 3、Qwen等)。可以理解为一个本地版的AI模型“应用商店”和“运行平台”,无需联网和复杂的配置,就能拥有一个私人的AI助手。

Ollama的设计初衷是简化AI模型的使用,让技术不再有高门槛。它的核心价值体现在以下几个方面:

极致简化部署:告别繁琐的环境配置和依赖安装。通过一行命令 ollama run <模型名>,Ollama会自动帮你完成模型的下载、加载和启动,真正做到开箱即用。

数据隐私安全:所有模型和数据都在你自己的电脑上运行,无需将任何信息上传到云端。这对于处理敏感信息的企业或个人来说,是一个至关重要的优势。

硬件资源友好:Ollama采用了模型量化等技术,能显著降低模型对内存的需求。这使得很多原本需要昂贵服务器的模型,也能在普通的个人电脑甚至笔记本上流畅运行。

通过官方下载PC端,详情见:https://ollama.com/download 

可以选择对应的模型,若要引入本地离线模型,此处使用上文中的Qwen3.5举例:

1.首先进入模型目录:cd "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF"

2.创建【Modelfile】此文件无后缀:echo FROM Qwen3.5-0.8B-Q4_K_M.gguf > Modelfile

3.创建模型-文件中写的是相对路径所以需要在当前目录下:ollama create qwen3.5-0.8b-4km -f ./Modelfile

4.重启ollama即可选择该模型,或者执行命令:ollama run qwen3.5-0.8b-4km

3.LLaMaFactory

LLaMaFactory安装详情见:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

CUDA安装包下载:https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local

安装完成后命令行:nvcc -V 出现如下,表示安装成功;

使用git下载项目:git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

cd LLaMA-Factory

pip install -e .

pip install -r requirements/metrics.txt

通过使用 llamafactory-cli version 校验安装成功;

LLaMa Factory 支持通过WebUI微调大语言模型,使用指令:llamafactory-cli webui

访问:http://localhost:7860/ 可以进入页面;

4.llama.cpp

由于个人电脑缺少独显GPU,无法运行LLaMa Factory,故后续改用llama.cpp;

llama.cpp是免费的开源工具,对CPU运行做了优化,同时可直接使用GGUF格式。

访问官方发布页:https://github.com/ggml-org/llama.cpp/releases 下载对应Windows版本压缩包文件;

在Assets中找到 bin-win 的zip包;Vulkan表示通用版,覆盖面广;SYCL表示专业版,主要是配合独显设计的;

解压后进入目录,例如:D:\Program Files\llama-b8254-bin-win-vulkan-x64

 使用命令行:llama-server.exe -m "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF\Qwen3.5-0.8B-Q4_K_M.gguf"

访问:http://127.0.0.1:8080

     这次基于 ModelScope 平台的 Qwen3.5 系列开源大模型本地部署实践,尽管最后通过引入 llama.cpp 成功在 CPU 环境下启动了模型服务,验证了其在资源受限环境下本地化部署的可行性。
但是 LLaMaFactory 的 WebUI 微调功能及其具体参数配置,由于涉及更复杂的依赖环境和硬件要求,本次暂未展开实践,相关内容将在后续的技术分享中进行实践和讲解。

Read more

算法基础篇:(二十一)数据结构之单调栈:从原理到实战,玩转高效解题

算法基础篇:(二十一)数据结构之单调栈:从原理到实战,玩转高效解题

目录 前言 一、什么是单调栈?先打破 “栈” 的常规认知 1.1 单调栈的核心特性 1.2 如何实现一个单调栈? 实现单调递增栈 实现单调递减栈 1.3 核心操作解析:为什么要 “弹出元素”? 二、单调栈能解决什么问题?四大核心场景全覆盖 2.1 场景 1:找左侧最近的 “更大元素” 问题描述 解题思路 代码实现 测试用例验证 2.2 场景 2:找左侧最近的 “更小元素” 问题描述 解题思路 代码实现 测试用例验证 2.3 场景 3:找右侧最近的 “更大元素” 问题描述

By Ne0inhk
【希尔排序算法】详解:原理、实现与优化

【希尔排序算法】详解:原理、实现与优化

【希尔排序算法】详解:原理、实现与优化 * 一、算法概述 * 基本特性 * 二、算法原理详解 * 核心思想 * 增量序列选择 * 三、算法流程图示 * 示例数组:[8, 9, 1, 7, 2, 3, 5, 4, 6, 0] * 初始状态 * 第一轮:gap=5 * 第二轮:gap=2 * 第三轮:gap=1(标准插入排序) * 四、完整Java实现 * 五、算法分析 * 时间复杂度分析 * 空间复杂度 * 稳定性 * 六、实际应用场景 * 七、与其他排序算法的对比 * 八、总结 🌺The Begin�

By Ne0inhk

傅里叶变换 | FFT 与 DFT 原理及算法

注:本文为 “傅里叶变换 | FFT 与 DFT” 相关合辑。 英文引文,机翻未校。 中文引文,略作重排。 图片清晰度受引文原图所限。 如有内容异常,请看原文。 Fast Fourier Transform (FFT) 快速傅里叶变换(FFT) In this section we present several methods for computing the DFT efficiently. In view of the importance of the DFT in various digital signal processing applications, such as linear filtering,

By Ne0inhk
链表进阶核心 | LeetCode 92 区间反转:吃透递归反转与哨兵技巧

链表进阶核心 | LeetCode 92 区间反转:吃透递归反转与哨兵技巧

✨链表进阶核心 | LeetCode 92 区间反转:吃透递归反转与哨兵技巧🎯 * 视频地址 * 🚀 开篇引论:链表反转的进阶之路 * 🔄 基础筑基:链表【前n个节点】递归反转 * 1. 函数定义与核心功能 * 2. 递归实现思路拆解 * 3. 直观调用示例 * 4. 关键代码实现(C++)与详解 * 🎯 实战攻坚:LeetCode 92 链表区间反转 * 1. 题目问题描述 * 2. 神器加持:虚拟头节点(哨兵)技巧 * 3. 整体解题思路 * 4. 完整代码实现(C++)与逐行解析 * 5. 算法复杂度分析 * 📚 算法原理深度剖析 * 1. 递归反转的核心原理 * 2. 虚拟头节点的底层逻辑 * 💡 算法学习核心建议 * 结语 * ✅ 关键点回顾 视频地址

By Ne0inhk