从 0 到 1!Qwen3.5 系列开源大模型本地部署全流程(ModelScope)

从 0 到 1!Qwen3.5 系列开源大模型本地部署全流程(ModelScope)
【本文作者:Troy】

1.Qwen

Qwen3.5是阿里云通义千问团队发布的新一代开源大模型系列,是提供基础智能能力的“大脑”。主要是作为基础模型,本身具备强大的文本生成、复杂推理、多模态理解(如图像、视频)和工具调用等能力。适用于希望直接使用高性能大模型,或将其作为基座进行二次开发的个人、研究者和企业。

可访问魔搭社区:https://www.modelscope.cn/models?name=qwen3.5&page=1&tabKey=task 

Qwen3.5 具备以下增强特性:

  • 统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际表现与 Qwen3 持平,并优于 Qwen3-VL 模型。
  • 高效混合架构:门控 Delta 网络与稀疏混合专家(Mixture-of-Experts)相结合,实现高吞吐推理,同时保持极低延迟和成本开销。
  • 可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而获得强大的现实世界适应能力。
  • 全球语言覆盖:支持扩展至 201 种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。
  • 下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

文件名其中B代表billion,即十亿,指的是模型的参数量,例如:2B=参数量为20亿;一般来说,参数量越大的模型,其“记忆体”和“计算单元”越多,能够学习到的知识更丰富,处理复杂逻辑推理的能力也越强。参数量也直接决定了运行这个模型所需要的内存(显存)和存储空间。

考虑到本地个人电脑(无独显)硬件配置,此处选择【Qwen3.5-0.8B-GGUF】举例子,详情见:https://www.modelscope.cn/models/unsloth/Qwen3.5-0.8B-GGUF/summary

其中【模型介绍】描述基准测试结果关于不同模型间的比较,可自行阅读;

点击【下载模型】,个人觉得【命令行下载】较方便,遂执行命令行,文件默认下载至【C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF】

GGUF是一种专为大型语言模型(LLM)设计的二进制文件格式,全称是GPT-Generated Unified Format(GPT生成统一格式)。可以理解为一个经过高度优化和打包的模型“压缩包”,其核心目标就是让庞大的AI模型能在普通电脑上更快地加载和运行。

Qwen3.5-0.8B-Q4_K_M.gguf (推荐):平衡性最好,质量与大小的黄金比例;适用于日常对话、文本生成,兼顾速度和效果;

Qwen3.5-0.8B-Q3_K_S.gguf (高速):文件最小,运行最快,但质量略有下降;

Qwen3.5-0.8B-Q5_K_M.gguf (高质量):质量更好,接近原始模型,但文件稍大,占用内存更多;

不建议使用的文件:

mmproj-*.gguf:这些是多模态投影文件,纯文本模型不需要;

Qwen3.5-0.8B-BF16.gguf:这是未量化的完整模型,约1.4GB,内存占用太大;

Qwen3.5-0.8B-Q8_0.gguf:质量提升有限但体积大很多;

文件名含义:

Q4/Q5/Q8:量化位数,越高质量越好但文件越大;

K_M/K_S:K表示K-quants量化方法,M是中等质量,S是小体积;

IQ:改进型量化,压缩率更高;

2.Ollama

Ollama是一个开源、轻量级的工具,可以让你在个人电脑上轻松运行大型语言模型(如Llama 3、Qwen等)。可以理解为一个本地版的AI模型“应用商店”和“运行平台”,无需联网和复杂的配置,就能拥有一个私人的AI助手。

Ollama的设计初衷是简化AI模型的使用,让技术不再有高门槛。它的核心价值体现在以下几个方面:

极致简化部署:告别繁琐的环境配置和依赖安装。通过一行命令 ollama run <模型名>,Ollama会自动帮你完成模型的下载、加载和启动,真正做到开箱即用。

数据隐私安全:所有模型和数据都在你自己的电脑上运行,无需将任何信息上传到云端。这对于处理敏感信息的企业或个人来说,是一个至关重要的优势。

硬件资源友好:Ollama采用了模型量化等技术,能显著降低模型对内存的需求。这使得很多原本需要昂贵服务器的模型,也能在普通的个人电脑甚至笔记本上流畅运行。

通过官方下载PC端,详情见:https://ollama.com/download 

可以选择对应的模型,若要引入本地离线模型,此处使用上文中的Qwen3.5举例:

1.首先进入模型目录:cd "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF"

2.创建【Modelfile】此文件无后缀:echo FROM Qwen3.5-0.8B-Q4_K_M.gguf > Modelfile

3.创建模型-文件中写的是相对路径所以需要在当前目录下:ollama create qwen3.5-0.8b-4km -f ./Modelfile

4.重启ollama即可选择该模型,或者执行命令:ollama run qwen3.5-0.8b-4km

3.LLaMaFactory

LLaMaFactory安装详情见:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

CUDA安装包下载:https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local

安装完成后命令行:nvcc -V 出现如下,表示安装成功;

使用git下载项目:git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

cd LLaMA-Factory

pip install -e .

pip install -r requirements/metrics.txt

通过使用 llamafactory-cli version 校验安装成功;

LLaMa Factory 支持通过WebUI微调大语言模型,使用指令:llamafactory-cli webui

访问:http://localhost:7860/ 可以进入页面;

4.llama.cpp

由于个人电脑缺少独显GPU,无法运行LLaMa Factory,故后续改用llama.cpp;

llama.cpp是免费的开源工具,对CPU运行做了优化,同时可直接使用GGUF格式。

访问官方发布页:https://github.com/ggml-org/llama.cpp/releases 下载对应Windows版本压缩包文件;

在Assets中找到 bin-win 的zip包;Vulkan表示通用版,覆盖面广;SYCL表示专业版,主要是配合独显设计的;

解压后进入目录,例如:D:\Program Files\llama-b8254-bin-win-vulkan-x64

 使用命令行:llama-server.exe -m "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3___5-0___8B-GGUF\Qwen3.5-0.8B-Q4_K_M.gguf"

访问:http://127.0.0.1:8080

     这次基于 ModelScope 平台的 Qwen3.5 系列开源大模型本地部署实践,尽管最后通过引入 llama.cpp 成功在 CPU 环境下启动了模型服务,验证了其在资源受限环境下本地化部署的可行性。
但是 LLaMaFactory 的 WebUI 微调功能及其具体参数配置,由于涉及更复杂的依赖环境和硬件要求,本次暂未展开实践,相关内容将在后续的技术分享中进行实践和讲解。

Read more

安装 启动 使用 Neo4j的超详细教程

安装 启动 使用 Neo4j的超详细教程

最近在做一个基于知识图谱的智能生成项目。需要用到Neo4j图数据库。写这篇文章记录一下Neo4j的安装及其使用。 一.Neo4j的安装 1.首先安装JDK,配环境变量。(参照网上教程,很多) Neo4j是基于Java的图形数据库,运行Neo4j需要启动JVM进程,因此必须安装JAVA SE的JDK。从Oracle官方网站下载 Java SE JDK。我使用的版本是JDK1.8 2.官网上安装neo4j。 官方网址:https://neo4j.com/deployment-center/  在官网上下载对应版本。Neo4j应用程序有如下主要的目录结构: bin目录:用于存储Neo4j的可执行程序; conf目录:用于控制Neo4j启动的配置文件; data目录:用于存储核心数据库文件; plugins目录:用于存储Neo4j的插件; 3.配置环境变量 创建主目录环境变量NEO4J_HOME,并把主目录设置为变量值。复制具体的neo4j文件地址作为变量值。 配置文档存储在conf目录下,Neo4j通过配置文件neo4j.conf控制服务器的工作。默认情况下,不需

企业微信群机器人Webhook配置全攻略:从创建到发送消息的完整流程

企业微信群机器人Webhook配置全攻略:从创建到发送消息的完整流程 在数字化办公日益普及的今天,企业微信作为国内领先的企业级通讯工具,其群机器人功能为团队协作带来了极大的便利。本文将手把手教你如何从零开始配置企业微信群机器人Webhook,实现自动化消息推送,提升团队沟通效率。 1. 准备工作与环境配置 在开始创建机器人之前,需要确保满足以下基本条件: * 企业微信账号:拥有有效的企业微信管理员或成员账号 * 群聊条件:至少包含3名成员的群聊(这是创建机器人的最低人数要求) * 网络环境:能够正常访问企业微信服务器 提示:如果是企业管理员,建议先在"企业微信管理后台"确认机器人功能是否已对企业开放。某些企业可能出于安全考虑会限制此功能。 2. 创建群机器人 2.1 添加机器人到群聊 1. 打开企业微信客户端,进入目标群聊 2. 点击右上角的群菜单按钮(通常显示为"..."或"⋮") 3. 选择"添加群机器人"选项 4.

Flowise物联网融合:与智能家居设备联动的应用设想

Flowise物联网融合:与智能家居设备联动的应用设想 1. Flowise:让AI工作流变得像搭积木一样简单 Flowise 是一个真正把“AI平民化”落地的工具。它不像传统开发那样需要写几十行 LangChain 代码、配置向量库、调试提示词模板,而是把所有这些能力打包成一个个可拖拽的节点——就像小时候玩乐高,你不需要懂塑料怎么合成,只要知道哪块该拼在哪,就能搭出一座城堡。 它诞生于2023年,短短一年就收获了45.6k GitHub Stars,MIT协议开源,意味着你可以放心把它用在公司内部系统里,甚至嵌入到客户交付的产品中,完全不用担心授权问题。最打动人的不是它的技术多炫酷,而是它真的“不挑人”:产品经理能搭出知识库问答机器人,运营同学能配出自动抓取竞品文案的Agent,连刚学Python两周的实习生,也能在5分钟内跑通一个本地大模型的RAG流程。 它的核心逻辑很朴素:把LangChain里那些抽象概念——比如LLM调用、文档切分、向量检索、工具调用——变成画布上看得见、摸得着的方块。你拖一个“Ollama LLM”节点,再拖一个“Chroma Vector

OpenClaw配置Bot接入飞书机器人+Kimi2.5

OpenClaw配置Bot接入飞书机器人+Kimi2.5

上一篇文章写了Ubuntu_24.04下安装OpenClaw的过程,这篇文档记录一下接入飞书机器+Kimi2.5。 准备工作 飞书 创建飞书机器人 访问飞书开放平台:https://open.feishu.cn/app,点击创建应用: 填写应用名称和描述后就直接创建: 复制App ID 和 App Secret 创建成功后,在“凭证与基础信息”中找到 App ID 和 App Secret,把这2个信息复制记录下来,后面需要配置到openclaw中 配置权限 点击【权限管理】→【开通权限】 或使用【批量导入/导出权限】,选择导入,输入以下内容,如下图 点击【下一步,确认新增权限】即可开通所需要的权限。 配置事件与回调 说明:这一步的配置需要先讲AppId和AppSecret配置到openclaw成功之后再设置订阅方式,