在Windows电脑上使用Ollama部署本地大模型(部署qwen3.5、使用CherryStudio和AingDesk与大模型交互、解决Ollama中AI大模型只能同时处理一个请求的问题)

在Windows电脑上使用Ollama部署本地大模型(部署qwen3.5、使用CherryStudio和AingDesk与大模型交互、解决Ollama中AI大模型只能同时处理一个请求的问题)

文章目录

0. 为什么要在本地部署AI大模型

考虑维度实际意义
数据安全与隐私数据完全在本地闭环处理,无需上传至第三方云端服务器
响应速度与体验模型推理在本地硬件上直接完成,消除了网络传输延迟
深度定制与集成拥有模型权重,允许利用私有数据进行微调,并修改底层代码
成本控制与效益一次性硬件投入后,内部使用边际成本趋近于零,无按Token计费的压力
内容自主与审查摆脱第三方API不透明的黑盒敏感词过滤机制(AI 大模型输出到一半时突然撤回消息)

1. Ollama

1.1 Ollama是什么

Ollama 是一个“本地运行大模型”的工具,可以在你的电脑/服务器上下载、运行和管理各种开源大语言模型,并提供统一命令行和 HTTP API,像用本地版的“ChatGPT 服务”一样方便

1.2 下载Ollama

1.2.1 通过Ollama官网下载

下载地址:https://ollama.com/

https://ollama.com/ 

在这里插入图片描述

在这里插入图片描述

1.2.2 通过GitHub下载

下载地址:https://github.com/ollama/ollama/

https://github.com/ollama/ollama/ 

如果无法正常访问 GitHub,可以参考我的另一篇博文:GitHub的使用技巧(加速访问GitHub、查看GitHub的热门项目、查看GitHub推荐的项目、Fork、Issue、快速找到项目的安装包、GitHub的各种快捷键)


在这里插入图片描述
在这里插入图片描述

1.2.3 通过第三方下载(推荐)

通过第三方下载的 Ollama 可能不是最新版,但不影响我们正常使用,后续我们也可以手动将Ollama升级到最新版

下载地址:https://www.onlinedown.net/soft/10133234.htm

https://www.onlinedown.net/soft/10133234.htm 
在这里插入图片描述

在这里插入图片描述

1.2.4 通过联想电脑管家下载(推荐)

没想到吧,联想电脑管家还能干这事ψ(*`ー´)ψ


联想电脑管家的下载地址:https://guanjia.lenovo.com.cn/

https://guanjia.lenovo.com.cn/ 
在这里插入图片描述

成功安装联想电脑管家后,打开联想应用商店

在这里插入图片描述

搜索 Ollama 关键字,点击安装按钮就可以下载了(由于我的电脑上已经安装过 Ollama,所以显示的是打开按钮)

Ollama 
在这里插入图片描述

1.3 安装Ollama

双击 OllamaSetup.exe 文件安装 Ollama,一路点击下一步就好了(默认安装在 C 盘,不可更改)


在这里插入图片描述

在这里插入图片描述

安装成功之后,会自动打开 Ollama 软件

在这里插入图片描述

1.4 更新Ollama到最新版

1.4.1 通过Ollama本身更新

在任务栏中鼠标右键 Ollama 的图标,点击 Restart to update 选项

在这里插入图片描述

1.4.2 通过联想电脑管家更新

由于我的电脑上的 Ollama 已经是最新版,所以显示的是打开按钮

在这里插入图片描述

2. 下载AI大模型

本次演示所使用的电脑的硬件配置如下:

  • CPU:Intel® Core™ i5-14600KF
  • 内存:32G
  • 显卡:NVIDIA GeForce RTX 5060 Ti 16G

2.1 更改AI大模型的保存路径

使用 Ollama 下载大模型时,大模型默认会保存在 C 盘,我们需要更改大模型的保存路径


点击 Ollama 左上角的图标

在这里插入图片描述

点击 Settings 选项

在这里插入图片描述

更改大模型的保存位置

在这里插入图片描述

2.2 Ollama设置界面中各个配置项的含义

以下是使用微信翻译的 Ollama 设置界面

在这里插入图片描述

上下文长度越大,大模型能够记住你说过的内容就越多,使用体验也会更好,当然,上下文长度越大,大模型的处理速度和吐字速度也会变慢,可根据机器的硬件配置调整上下文的长度


2.3 下载AI大模型(以qwen3.5:9b为例)

我们在大模型广场找到 qwen3.5:9b 模型,模型广场:https://ollama.com/

https://ollama.com/ 

搜索 qwen3.5 关键字

在这里插入图片描述

不同参数的 qwen3.5 模型对硬件的要求如下

模型名称 (Tag)模型文件大小最低显存 (VRAM) (全速运行)最低内存 (RAM) (仅CPU运行)推荐配置 (含长上下文余量)RTX 5060 Ti 16G 表现预测
qwen3.5:0.8b1.0 GB2 GB4 GB8 GB⚡️ 极速 (显存占用极低,可多开)
qwen3.5:2b2.7 GB4 GB6 GB8 GB⚡️ 极速 (毫无压力)
qwen3.5:4b3.4 GB6 GB8 GB12 GB⚡️ 极速 (毫无压力)
qwen3.5:9b6.6 GB8 GB12 GB16 GB⚡️ 完美匹配 (首选,速度快且有余量处理长文)
qwen3.5:27b17 GB20 GB32 GB40 GB+🐢 勉强可用 (显存溢出,部分层走内存,速度中等偏慢)
qwen3.5:35b24 GB28 GB48 GB64 GB+🐌 较慢 (严重依赖内存,仅适合非实时任务)
qwen3.5:122b81 GB96 GB (多卡)128 GB140 GB+❌ 无法流畅运行 (需多张专业显卡或纯CPU慢速推理)
qwen3.5:cloud-0 GB (需联网)4 GB8 GB☁️ 云端运行 (不消耗本地算力,依赖网速)
qwen3.5:397b-cloud-0 GB (需联网)4 GB8 GB☁️ 云端运行 (不消耗本地算力,依赖网速)

我们下载参数为 9b 的模型

在这里插入图片描述

复制 CLI 代码

ollama run qwen3.5:9b 
在这里插入图片描述

按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中输入我们刚才复制的代码

ollama run qwen3.5:9b 
在这里插入图片描述
  • ollama pull = 只把模型文件下载到硬盘,不启动模型
  • ollama run = 先检查本地有没有模型,没有就自动下载,下载完后立即启动并进入对话界面

2.4 运行指令部署本地大模型

在终端运行 ollama run qwen3.5:9b 指令部署本地大模型

ollama run qwen3.5:9b 

如果终端出现 Send a message (/? for help) 提示信息,说明大模型在本地部署成功了

我们可以在终端中与大模型进行交互,第一次提问时大模型的回复速度可能较慢,后面大模型的回复速度会快很多

在这里插入图片描述

2.5 修改AI大模型的上下文长度

我们打开 Ollama 的界面,点击 Settings 按钮

在这里插入图片描述
即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度)越慢

在这里插入图片描述

3. 下载与AI大模型交互的软件

一直在 cmd 命令窗口里面与大模型交互,很不方便,我们可以借助一些软件来实现聊天对话框的效果

3.1 Cherry Studio社区版(个人使用免费,商用需授权)

3.1.1 下载

下载地址:https://www.cherry-ai.com/

https://www.cherry-ai.com/ 
在这里插入图片描述
在这里插入图片描述

3.1.2 安装

双击 Cherry Studio 安装包,一路点击下一步即可

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

看到以下界面说明 Cherry Studio 安装成功了

在这里插入图片描述

3.2 AingDesk(个人使用和商用均免费)

3.2.1 下载

3.2.1.1 通过GitHub下载

下载地址:https://github.com/aingdesk/AingDesk

https://github.com/aingdesk/AingDesk 

如果无法正常访问 GitHub,可以参考我的另一篇博文:GitHub的使用技巧(加速访问GitHub、查看GitHub的热门项目、查看GitHub推荐的项目、Fork、Issue、快速找到项目的安装包、GitHub的各种快捷键)


在这里插入图片描述
在这里插入图片描述
3.2.1.2 通过腾讯CNB下载

下载地址:https://cnb.cool/aingdesk/AingDesk/-/releases

https://cnb.cool/aingdesk/AingDesk/-/releases 
在这里插入图片描述

3.2.2 安装

双击 AingDesk-win-1.2.4-x64.exe 文件,一路点击下一步就可以了


在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

看到以下界面说明 AingDesk 安装成功了

在这里插入图片描述

4. 使用软件与AI大模型进行交互

qwen3.5 是一款多模态模型,可以直接理解图片,无需借助 OCR 工具

4.1 使用Ollama与AI大模型进行交互

在 Ollama 中也与 AI 大模型进行交互


选择我们下载好的 qwen3.5:9b 模型

在这里插入图片描述
在这里插入图片描述

4.2 使用Cherry Studio与AI大模型进行交互

4.2.1 添加本地AI大模型

点击右上角的设置图标

在这里插入图片描述

搜索 Ollama 关键字

点击 Ollama 选项,再点击添加按钮

在这里插入图片描述

输入模型 ID 后会自动填写模型名称和分组名称

qwen3:4b 
在这里插入图片描述
在这里插入图片描述

添加成功后点击左上角的首页,再点击某个对话,将对话中的模型切换为 qwen3:4b 模型,切换成功后就可以正常对话了

在这里插入图片描述

4.2.2 设置AI大模型上下文的长度

点击对话记录右边的三个小点

在这里插入图片描述

将上下文数设置为不限(之所以设置为不限,是因为我们要靠 Ollama 来限制上下文数量,而不是靠 Cherry Studio 来限制上下文数量)

在这里插入图片描述

接着我们打开 Ollama 的界面,点击 Settings 按钮

在这里插入图片描述
即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度越慢)越慢

在这里插入图片描述

4.3 使用AingDesk与AI大模型进行交互

使用本地模型

在这里插入图片描述

查看已安装的模型

在这里插入图片描述

选择我们安装好的 qwen:3b 模型

在这里插入图片描述

在下方的输入框中输入提问内容

在这里插入图片描述

5. 解决ollama中本地大模型只能同时处理一个请求的问题

值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求

默认情况下,如果同时打开两个聊天窗口,ollama 需要处理完第一个请求之后才能处理第二个请求


在这里插入图片描述

5.1 添加OLLAMA_NUM_PARALLEL系统环境变量

值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求

我们可以通过添加 OLLAMA_NUM_PARALLEL 系统环境变量来设置 ollama 支持的请求并发数


按下 win + i 快捷键,搜索环境变量关键字,点击编辑系统环境变量

在这里插入图片描述

点击环境变量

在这里插入图片描述

点击新建

在这里插入图片描述

变量名称为 OLLAMA_NUM_PARALLEL,变量的值为并发数

OLLAMA_NUM_PARALLEL 

添加完 OLLAMA_NUM_PARALLEL 环境变量后,点击打开的窗口的所有确定按钮,保存更改

在这里插入图片描述

5.2 重启ollama验证环境变量是否生效

值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求

在任务栏中鼠标右键 Ollama 图标,暂时关闭 Ollama

在这里插入图片描述

再次打开 Ollama,测试后发现 Ollama 支持同时处理多个请求了

6. 本地部署AI大模型时可能遇到的问题

6.1 AI大模型的处理速度(吐字速度)十分慢

如果大模型的吐字速度十分慢,大概率是因为上下文长度太长了,在机器硬件配置有限的情况下,可以适当减小上下文的长度


我们打开 Ollama 的界面,点击 Settings 按钮

在这里插入图片描述
即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度)越慢

在这里插入图片描述

6.2 使用Cherry Studio与AI大模型交互时报错(model requires more system memory)

6.2.1 问题呈现

如果在使用 Cherry Studio 与 AI 大模型交互时报错

在这里插入图片描述

点开错误详情后发现相应内容为

“error”: “model requires more system memory (64.3 GiB) than is available (44.2 GiB)”


在这里插入图片描述

6.2.2 解决方法

之所以出现这个问题,是因为 Ollama 支持的请求并发数设置得太大了,或者 AI 大模型上下文长度太大了,机器拉不动


要解决这个问题,我们需要调整 Ollama 支持的请求并发数或调整 AI 大模型的上下文长度:

6.3 使用Ollama下载qwen3.5:9b报错(The model you are attempting to pull requires a newer version of Ollama.)

6.3.1 问题呈现

在这里插入图片描述

PS C:\Users\NieKeYi> ollama pull qwen3.5:9b
pulling manifest
Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.

Please download the latest version at:

​ https://ollama.com/download


6.3.2 问题产生的原因

qwen3.5 是通义千问系列非常新的版本(特别是支持 256K 上下文和多模态的新架构),需要较新版本的 Ollama 来解析其模型配置文件(Manifest)

旧版本的 Ollama 版本还“不认识”这个新格式,所以服务器拒绝了请求(HTTP 412 Precondition Failed)

6.3.3 解决方法

更新 Ollama 到最新版,具体可以参考本文的 1.4 更新Ollama到最新版 章节

6.4 使用Cherry Studio与AI大模型交互时报错(qwen3.5:9b-q8_0 does not support thinking)

6.4.1 问题呈现

导入来自魔搭社区的大模型 gguf 文件后,在开启思考模式的情况下与大模型交互,报 qwen3.5:9b-q8_0 does not support thinking 错

在这里插入图片描述

6.4.2 错误原因

魔搭社区中的 qwen3.5 大模型对思考模式的支持不是很好,建议关闭思考模式。如果想要使用思考模式,建议使用通过 Ollama 终端下载的 qwen3.5 模型

6.4.3 解决方法

在 CheryStudio 中关闭思考模式

在这里插入图片描述

7. 如何停止正在运行的AI大模型

默认情况下,如果 4 分钟内不再向 AI 大模型发送任何请求,Ollama 为了节省资源,会自动把 AI 大模型从内存(显存)中卸载掉,只要一直在跟 AI 大模型对话,这个时间就会一直重置

按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中 ollama ps 指令

ollama ps 
在这里插入图片描述
字段含义
NAME当前正在运行的模型名称(这里是 Qwen3 的 4B 版本)
ID模型实例的唯一标识哈希值,用于区分不同的会话实例
SIZE这个模型当前占用的显存(或内存)大小。如果看到 20多 GB,说明模型很大或者被加载到了显存中
PROCESSOR显示模型的计算资源分配情况。目前模型正在混合使用 CPU 和 GPU,大约 36% 的负载在 CPU 上64% 的负载在 GPU 上。这通常是好事,说明你的 GPU 正在承担主要工作
CONTEXT上下文窗口大小,即模型能"记住"的最多 Token(词元)数量。32768 表示 32k 的上下文长度
UNTIL自动卸载倒计时。这表示如果你在接下来的 4 分钟内不再向这个模型发送任何请求,Ollama 为了节省资源,会自动把它从内存(显存)中卸载掉。只要你在跟它对话,这个时间就会一直重置

按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中 ollama stop qwen3:4b 指令停止正在运行的 AI 大模型,其中 qwen3:4b 为 AI 大模型的名称

ollama stop qwen3:4b 
在这里插入图片描述

8. 参考视频

Read more

GLM-4.6V-Flash-WEB Web界面使用指南,拖图就出结果

GLM-4.6V-Flash-WEB Web界面使用指南,拖图就出结果 你不需要配置环境、不用写一行推理代码、甚至不用打开终端——只要把一张截图拖进浏览器窗口,几秒钟后,它就能告诉你图里写了什么、画了什么、哪里有问题。这不是未来预告,而是你现在就能在本地跑起来的真实体验。 GLM-4.6V-Flash-WEB 是智谱AI最新开源的轻量级视觉语言模型,专为Web端实时交互而生。它不像某些“实验室模型”那样只存在于论文和Benchmark表格里,而是真正做到了:部署快、启动快、响应快、上手更快。一块RTX 3090,一个浏览器,一次拖拽,结果即刻呈现。 本文不讲训练原理,不列参数表格,不堆技术术语。我们只聚焦一件事:怎么用好它的Web界面?从零开始,到稳定产出,每一步都清晰可操作。 1. 为什么说“拖图就出结果”不是宣传话术? 很多多模态模型标榜“支持图文理解”,但实际用起来才发现:要装依赖、改路径、调精度、修CUDA版本、

前端防范 XSS(跨站脚本攻击)

目录 一、防范措施 1.layui util  核心转义的特殊字符 示例 2.js-xss.js库 安装 1. Node.js 环境(npm/yarn) 2. 浏览器环境 核心 API 基础使用 1. 基础过滤(默认规则) 2. 自定义过滤规则 (1)允许特定标签 (2)允许特定属性 (3)自定义标签处理 (4)自定义属性处理 (5)转义特定字符 常见场景示例 1. 过滤用户输入的评论内容 2. 允许特定富文本标签(如富文本编辑器内容) 注意事项 更多配置 XSS(跨站脚本攻击)是一种常见的网络攻击手段,它允许攻击者将恶意脚本注入到其他用户的浏览器中。

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

目录 1. 打开浏览器开发者工具 2. 使用 Network 面板 3. 查看具体的API请求 a. Headers b. Payload c. Response d. Preview e. Timing 4. 实际操作步骤 5. 常见问题及解决方法 a. 无法看到API请求 b. 请求失败 c. 跨域问题(CORS) 作为一名后端工程师,理解前端如何调用接口、传递参数以及接收返回值是非常重要的。下面将详细介绍如何通过浏览器开发者工具(F12)查看和分析这些信息,并附带图片案例帮助你更好地理解。 1. 打开浏览器开发者工具 按下 F12 或右键点击页面选择“检查”可以打开浏览器的开发者工具。常用的浏览器如Chrome、Firefox等都内置了开发者工具。下面是我选择我的一篇文章,打开开发者工具进行演示。 2. 使用

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例)

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例) 前端开发中最令人头疼的莫过于那些难以定位的UI问题——元素错位、样式冲突、响应式失效...传统调试方式往往需要反复修改代码、刷新页面、检查元素。现在,通过Cursor编辑器集成的Codex功能,你可以直接用截图交互快速定位和修复这些问题。本文将带你从零开始,掌握这套革命性的调试工作流。 1. 环境准备与基础配置 在开始之前,确保你已经具备以下环境: * Cursor编辑器最新版(v2.5+) * Node.js 18.x及以上版本 * React 18项目(本文以Chakra UI 2.x为例) 首先在Cursor中安装Codex插件: 1. 点击左侧扩展图标 2. 搜索"Codex"并安装 3. 登录你的OpenAI账户(需要ChatGPT Plus订阅) 关键配置项: // 在项目根目录创建.