跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Qwen3.5 系列开源大模型本地部署全流程(ModelScope)

Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型,支持多模态理解与工具调用。演示了在本地 PC 环境下通过 ModelScope 下载模型、使用 Ollama 运行及 llama.cpp 部署的完整流程。针对无独显场景,提供了 GGUF 量化格式选择建议及命令行操作步骤,验证了资源受限环境下的模型本地化可行性。

黑客帝国发布于 2026/3/26更新于 2026/6/1624 浏览
Qwen3.5 系列开源大模型本地部署全流程(ModelScope)

1. Qwen

Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型系列,提供基础智能能力。主要作为基础模型,具备强大的文本生成、复杂推理、多模态理解(如图像、视频)和工具调用等能力。适用于希望直接使用高性能大模型,或将其作为基座进行二次开发的个人、研究者和企业。

可访问魔搭社区:https://www.modelscope.cn/models?name=qwen3.5&page=1&tabKey=task

Qwen3.5 具备以下增强特性:

  • 统一的视觉 - 语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际表现与 Qwen3 持平,并优于 Qwen3-VL 模型。
  • 高效混合架构:门控 Delta 网络与稀疏混合专家(Mixture-of-Experts)相结合,实现高吞吐推理,同时保持极低延迟和成本开销。
  • 可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而获得强大的现实世界适应能力。
  • 全球语言覆盖:支持扩展至 201 种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。
  • 下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

文章配图

文件名其中 B 代表 billion,即十亿,指的是模型的参数量,例如:2B=参数量为 20 亿;一般来说,参数量越大的模型,其'记忆体'和'计算单元'越多,能够学习到的知识更丰富,处理复杂逻辑推理的能力也越强。参数量也直接决定了运行这个模型所需要的内存(显存)和存储空间。

考虑到本地个人电脑(无独显)硬件配置,此处选择【Qwen3.5-0.8B-GGUF】举例,详情见:https://www.modelscope.cn/models/unsloth/Qwen3.5-0.8B-GGUF/summary

其中【模型介绍】描述基准测试结果关于不同模型间的比较,可自行阅读;

文章配图

点击【下载模型】,建议使用命令行下载,文件默认下载至【C:\Users\Administrator.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF】

文章配图

文章配图

文章配图

GGUF 是一种专为大型语言模型(LLM)设计的二进制文件格式,全称是 GPT-Generated Unified Format(GPT 生成统一格式)。可以理解为一个经过高度优化和打包的模型'压缩包',其核心目标就是让庞大的 AI 模型能在普通电脑上更快地加载和运行。

推荐文件:

  • Qwen3.5-0.8B-Q4_K_M.gguf:平衡性最好,质量与大小的黄金比例;适用于日常对话、文本生成,兼顾速度和效果;
  • Qwen3.5-0.8B-Q3_K_S.gguf:文件最小,运行最快,但质量略有下降;
  • Qwen3.5-0.8B-Q5_K_M.gguf:质量更好,接近原始模型,但文件稍大,占用内存更多;

不建议使用的文件:

  • mmproj-*.gguf:这些是多模态投影文件,纯文本模型不需要;
  • Qwen3.5-0.8B-BF16.gguf:这是未量化的完整模型,约 1.4GB,内存占用太大;
  • Qwen3.5-0.8B-Q8_0.gguf:质量提升有限但体积大很多;

文件名含义:

  • Q4/Q5/Q8:量化位数,越高质量越好但文件越大;
  • K_M/K_S:K 表示 K-quants 量化方法,M 是中等质量,S 是小体积;
  • IQ:改进型量化,压缩率更高;

2. Ollama

Ollama 是一个开源、轻量级的工具,可以让你在个人电脑上轻松运行大型语言模型(如 Llama 3、Qwen 等)。可以理解为一个本地版的 AI 模型'应用商店'和'运行平台',无需联网和复杂的配置,就能拥有一个私人的 AI 助手。

Ollama 的设计初衷是简化 AI 模型的使用,让技术不再有高门槛。它的核心价值体现在以下几个方面:

  • 极致简化部署:告别繁琐的环境配置和依赖安装。通过一行命令 ollama run <模型名>,Ollama 会自动帮你完成模型的下载、加载和启动,真正做到开箱即用。
  • 数据隐私安全:所有模型和数据都在你自己的电脑上运行,无需将任何信息上传到云端。这对于处理敏感信息的企业或个人来说,是一个至关重要的优势。
  • 硬件资源友好:Ollama 采用了模型量化等技术,能显著降低模型对内存的需求。这使得很多原本需要昂贵服务器的模型,也能在普通的个人电脑甚至笔记本上流畅运行。

通过官方下载 PC 端,详情见:https://ollama.com/download

文章配图

可以选择对应的模型,若要引入本地离线模型,此处使用上文中的 Qwen3.5 举例:

  1. 首先进入模型目录:cd "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF"
  2. 创建【Modelfile】此文件无后缀:echo FROM Qwen3.5-0.8B-Q4_K_M.gguf > Modelfile
  3. 创建模型 - 文件中写的是相对路径所以需要在当前目录下:ollama create qwen3.5-0.8b-4km -f ./Modelfile
  4. 重启 ollama 即可选择该模型,或者执行命令:ollama run qwen3.5-0.8b-4km

3. LLaMaFactory

LLaMaFactory 安装详情见:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

CUDA 安装包下载:https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local

安装完成后命令行:nvcc -V 出现如下,表示安装成功;

文章配图

使用 git 下载项目:git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

cd LLaMA-Factory
pip install -e .
pip install -r requirements/metrics.txt

通过使用 llamafactory-cli version 校验安装成功;

文章配图

LLaMa Factory 支持通过 WebUI 微调大语言模型,使用指令:llamafactory-cli webui

文章配图

访问:http://localhost:7860/ 可以进入页面;

文章配图

4. llama.cpp

由于个人电脑缺少独显 GPU,无法运行 LLaMa Factory,故后续改用 llama.cpp;

llama.cpp 是免费的开源工具,对 CPU 运行做了优化,同时可直接使用 GGUF 格式。

访问官方发布页:https://github.com/ggml-org/llama.cpp/releases 下载对应 Windows 版本压缩包文件;

文章配图

在 Assets 中找到 bin-win 的 zip 包;Vulkan 表示通用版,覆盖面广;SYCL 表示专业版,主要是配合独显设计的;

解压后进入目录,例如:D:\Program Files\llama-b8254-bin-win-vulkan-x64

使用命令行:llama-server.exe -m "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF\Qwen3.5-0.8B-Q4_K_M.gguf"

访问:http://127.0.0.1:8080

文章配图

文章配图

本次基于 ModelScope 平台的 Qwen3.5 系列开源大模型本地部署实践,尽管最后通过引入 llama.cpp 成功在 CPU 环境下启动了模型服务,验证了其在资源受限环境下本地化部署的可行性。但是 LLaMaFactory 的 WebUI 微调功能及其具体参数配置,由于涉及更复杂的依赖环境和硬件要求,本次暂未展开实践,相关内容将在后续的技术分享中进行补充。

目录

  1. 1. Qwen
  2. 2. Ollama
  3. 3. LLaMaFactory
  4. 4. llama.cpp
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Stable Diffusion WebUI 本地部署教程
  • Python 列表核心用法与操作指南
  • Navicat Premium 17 版本对比与 AI 助手功能解析
  • Qwen3-VL 图文融合能力:统一理解与部署实战
  • 基于 Coze 平台搭建 AI 智能体实战指南
  • Linux 网络基础:局域网与跨网段通信原理
  • MATLAB 遗传算法求解函数极值入门指南
  • 使用 Ragas 为 RAG 生成测试集并评估特定文档表现
  • Windows 11 下 WSL2 安装 Ubuntu 22.04 完整指南
  • AMD AI MAX+395 迷你主机基于 ROCm 部署 vLLM 大模型实践
  • DeepSeek 深度使用指南:提示词技巧与本地知识库搭建
  • OpenClaw Web Search 配置与渠道选择指南
  • Mac M系列芯片适配:mlc-llm与llama.cpp对比
  • Java 大数据在智能家居设备联动与场景化节能中的应用
  • 开源大模型遇冷:Llama3 市场表现与闭源趋势分析
  • 开源AI电话机器人外呼系统:架构设计与生产部署
  • Qt 多线程开发:QThread 核心用法与示例
  • 开源 AI 编程工具选型对比:OpenCode 与 GitHub Copilot
  • 基于 JeecgBoot 低代码平台构建请假审批系统实战
  • Kafka 核心架构解析:Topic 与 Partition 映射逻辑详解

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online