Qwen3-32B 多场景落地:医疗问诊预筛与药品说明解读系统
1. 为什么需要一个专用于医疗场景的 AI 对话平台
在医疗场景中,用户常面临深夜发烧不敢贸然就医、药品说明书专业术语难懂、检查报告指标不明等痛点。传统方式要么依赖搜索引擎导致焦虑,要么在非紧急时段无法获得及时回应。通用大模型虽能回答基础问题,但面对高度专业、容错率低的医疗咨询(如肌酐数值解读、药物相互作用),往往给出模糊甚至存在风险的答案。
介绍基于 Qwen3-32B 模型的医疗场景 AI 对话系统搭建方案。采用 Ollama 进行模型私有化部署,通过反向代理构建安全网关,结合 Vue3 前端实现症状预筛与药品说明书解读功能。系统强调数据不出内网,提供本地推理能力,适用于基层医疗及药房咨询场景,无需云端 API 依赖。
在医疗场景中,用户常面临深夜发烧不敢贸然就医、药品说明书专业术语难懂、检查报告指标不明等痛点。传统方式要么依赖搜索引擎导致焦虑,要么在非紧急时段无法获得及时回应。通用大模型虽能回答基础问题,但面对高度专业、容错率低的医疗咨询(如肌酐数值解读、药物相互作用),往往给出模糊甚至存在风险的答案。
本系统是一套为医疗健康场景量身定制的轻量级 AI 服务系统。核心在于将 Qwen3-32B 模型的能力稳定地融入真实医疗工作流,不替代医生,但能帮助用户提前理清问题、读懂资料、节省沟通成本。整个系统采用私有部署模式,所有数据不出内网,模型推理全程本地完成,确保问诊记录、用药咨询、检查报告分析的安全可控。
平台由模型层、代理层、交互层三个关键环节组成,不依赖云 API,所有环节由用户掌控。
选择 Ollama 作为本地模型运行时,通过几条命令即可拉起 Qwen3-32B,并提供标准的 OpenAI 兼容 API。
# 在部署服务器上执行(需已安装 Ollama)
ollama pull qwen3:32b
ollama run qwen3:32b
Ollama 默认在本地 http://localhost:11434 提供 API 服务。它自动管理模型加载、显存分配和请求队列,对 32B 级别的大模型来说,响应稳定、内存占用合理。
关键点:这里使用的是官方镜像,保留完整推理精度。医疗文本理解尤其依赖上下文连贯性和术语准确性,剪枝或量化可能带来不可控的信息损失,因此选择稳字当头。
Ollama 的 API 默认只监听本地回环地址,无法被外部 Web 应用直接调用。通过轻量级反向代理(如 Caddy 或 Nginx)做两件事:
localhost:11434/api/chatContent-Type: application/json 且携带有效 X-Auth-Token 的请求配置片段示意(Caddyfile):
:8080 {
reverse_proxy localhost:11434 {
header_up X-Forwarded-For {remote_host}
header_up X-Real-IP {remote_host}
# 添加认证头,后端生成并校验
header_up X-Auth-Token "clawdbot-med-v1"
}
}
这样,前端只需向 http://your-domain:8080/api/chat 发起请求,就能无缝对接模型,而真实模型 API 始终隐藏在内网深处。
前端是一个极简的单页应用,没有复杂的状态管理,核心逻辑包括:
关键设计包括:
这种'有限自由 + 强引导'的设计,让非专业人士也能快速进入有效对话。
用户输入:'最近两周总感觉乏力,早上起床头晕,偶尔心慌,血压自己测过两次是 142/90,平时不抽烟,体检说血脂有点高。'
系统回复组织如下:
当前值得关注的信号
- 血压值 142/90 mmHg 已达到高血压 1 级标准(≥140/90),且伴有头晕、心慌等靶器官受损早期表现
- 乏力 + 血脂异常,需排查是否存在代谢综合征或早期糖尿病
建议你下次就诊时重点确认以下几项
- 连续 7 天家庭自测血压记录(早、晚各一次)
- 空腹血糖、糖化血红蛋白(HbA1c)、肝肾功能、尿微量白蛋白
- 心电图 + 颈动脉超声(评估血管硬化程度)
请注意:以上仅为基于描述的初步梳理,不能替代面诊。若出现胸痛、视物模糊、肢体麻木,请立即就医。
用户上传一张阿司匹林肠溶片说明书图片(OCR 识别后文本),并提问:'我爸 72 岁,有胃溃疡病史,现在医生开了这个药,能吃吗?要注意什么?'
系统回复聚焦三点:
关键信息提取(来自说明书原文)
- 【禁忌】活动性消化道溃疡或出血
- 【注意事项】老年患者出血风险增高,需密切监测粪便隐血
- 【相互作用】与华法林合用显著增加出血风险
结合您父亲情况的通俗解读
- 肠溶片只是延缓药物在胃里溶解,并不能完全避免对胃黏膜的刺激
- 72 岁属于高龄,胃黏膜修复能力下降,即使没有'活动性'溃疡,长期服用风险也明显升高
- 建议:① 务必与开药医生确认是否已加用胃保护药;② 服药期间每周自查大便颜色;③ 避免同时服用布洛芬等止痛药
我们以一台 16GB 内存、1 块 RTX 4090 的物理机为例,完整流程如下:
确保系统满足基础要求:
nvidia-smi 可正常输出)创建 docker-compose.yml:
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ./ollama_models:/root/.ollama/models
- ./ollama_library:/root/.ollama/library
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
执行:
docker compose up -d
docker exec -it ollama ollama run qwen3:32b
等待模型加载完成,访问 http://localhost:11434 能看到控制台,说明模型服务已就绪。
下载前端代码包并解压至服务器目录。
修改前端配置文件 /var/www/html/config.js:
export const API_BASE = 'http://your-server-ip:8080';
export const AUTH_TOKEN = 'clawdbot-med-v1';
启动 Caddy 代理(已预装):
caddy start
打开浏览器访问 http://your-server-ip,即可看到医疗对话界面。
回顾整个落地过程,系统的成功在于做对了三件事:
如果你也在寻找一个'不折腾、不踩坑'的 AI 落地路径,不妨从这样一个小切口开始:选一个你最熟悉的业务场景,用最简单的工具链,把最强的模型能力,稳稳地接到真实需求上。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online
JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online
Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online