华南理工大学开源中文主动健康大模型扁鹊（BianQue） | 极客日志

PythonAI算法

华南理工大学开源中文主动健康大模型扁鹊（BianQue）

华南理工大学开源中文主动健康大模型扁鹊（BianQue），包含 BianQue-1.0 与 BianQue-2.0 两个版本。该模型基于千万级健康对话大数据构建，核心创新在于引入“询问链”机制，模拟医生多轮问诊过程，解决用户描述不清的问题。BianQue-1.0 基于 ChatYuan 微调，强化问询能力；BianQue-2.0 基于 ChatGLM-6B，增强建议与知识查询能力。项目提供完整的代码部署、API 调用及微调教程，适用于慢性病管理、心理咨询等主动健康场景的研究与应用。

疯疯癫癫发布于 2025/2/6更新于 2026/5/3020 浏览

扁鹊（BianQue）

健康医疗大模型示意图

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征，华南理工大学未来技术学院 - 广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座 ProactiveHealthGPT。

我们期望，生活空间主动健康大模型基座 ProactiveHealthGPT 可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。本项目为生活空间健康大模型扁鹊（BianQue）。

扁鹊健康大数据 BianQueCorpus

我们经过调研发现，在健康领域，用户通常不会在一轮交互当中清晰地描述自己的问题，而当前常见的开源医疗问答模型（例如：ChatDoctor、本草 (HuaTuo)、DoctorGLM、MedicalGPT-zh）侧重于解决单轮用户描述的问题，而忽略了'用户描述可能存在不足'的情况。哪怕是当前大火的 ChatGPT 也会存在类似的问题：如果用户不强制通过文本描述让 ChatGPT 采用一问一答的形式，ChatGPT 也偏向于针对用户的描述，迅速给出它认为合适的建议和方案。然而，实际的医生与用户交谈往往会存在'医生根据用户当前的描述进行持续多轮的询问'。并且医生在最后根据用户提供的信息综合给出建议，如下图所示。我们把医生不断问询的过程定义为询问链（CoQ, Chain of Questioning），当模型处于询问链阶段，其下一个问题通常由对话上下文历史决定。

医生问诊询问链示意图

我们结合当前开源的中文医疗问答数据集（MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data），分析其中的单轮/多轮特性以及医生问询特性，结合实验室长期自建的生活空间健康对话大数据，构建了千万级别规模的扁鹊健康大数据 BianQueCorpus。对话数据通过'病人：xxx\n 医生：xxx\n 病人：xxx\n 医生：'的形式统一为一种指令格式，如下图所示。

数据格式示意图

input: "病人：六岁宝宝拉大便都是一个礼拜或者 10 天才一次正常吗，要去医院检查什么项目\n 医生：您好\n 病人：六岁宝宝拉大便都是一个礼拜或者 10 天才一次正常吗，要去医院检查什么项目\n 医生：宝宝之前大便什么样呢？多久一次呢\n 病人：一般都是一个礼拜，最近这几个月都是 10 多天\n 医生：大便干吗？\n 病人：每次 10 多天拉的很多\n 医生："  
target: "成形还是不成形呢？孩子吃饭怎么样呢？"

训练数据当中混合了大量 target 文本为医生问询的内容而非直接的建议，这将有助于提升 AI 模型的问询能力。

使用方法

1. 克隆本项目

cd ~  
git clone https://github.com/scutcyr/BianQue.git

2. 安装依赖

需要注意的是 torch 的版本需要根据你的服务器实际的 cuda 版本选择，详情参考 pytorch 安装指南。

cd BianQue  
conda  create -n proactivehealthgpt_py38 --file proactivehealthgpt_py38.yml  
conda activate proactivehealthgpt_py38  

pip install cpm_kernels  
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd BianQue  
conda create -n proactivehealthgpt_py38 python=3.8  
conda activate proactivehealthgpt_py38  
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116  
pip install -r requirements.txt  
pip install rouge_chinese nltk jieba datasets  
# 以下安装为了运行 demo  
pip install streamlit  
pip install streamlit_chat

import torch  
from transformers import AutoModel, AutoTokenizer  
# GPU 设置  
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  
# 加载模型与 tokenizer  
model_name_or_path = 'scutcyr/BianQue-2'  
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True).half()  
model.to(device)  
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)  

# 单轮对话调用模型的 chat 函数  
user_input = "我的宝宝发烧了，怎么办？"  
input_text = "病人：" + user_input + "\n 医生："  
response, history = model.chat(tokenizer, query=input_text, history=None, max_length=2048, num_beams=1, do_sample=True, top_p=0.75, temperature=0.95, logits_processor=None)  

# 多轮对话调用模型的 chat 函数  
# 注意：本项目使用"\n 病人："和"\n 医生："划分不同轮次的对话历史  
# 注意：user_history 比 bot_history 的长度多 1  
user_history = ['你好', '我最近失眠了']  
bot_history = ['我是利用人工智能技术，结合大数据训练得到的智能医疗问答模型扁鹊，你可以向我提问。']  
# 拼接对话历史  
context = "\n".join([f"病人：{user_history[i]}\n 医生：{bot_history[i]}" for i in range(len(bot_history))])  
input_text = context + "\n 病人：" + user_history[-1] + "\n 医生："  

response, history = model.chat(tokenizer, query=input_text, history=None, max_length=2048, num_beams=1, do_sample=True, top_p=0.75, temperature=0.95, logits_processor=None)

streamlit run bianque_v2_app.py --server.port 9005

os.environ['CUDA_VISIBLE_DEVICES'] = '1'

model_name_or_path = "scutcyr/BianQue-2"

streamlit run bianque_v1_v2_app.py --server.port 9005

import os  
from transformers import T5Tokenizer, T5ForConditionalGeneration, AutoTokenizer  
import torch  
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  


tokenizer = T5Tokenizer.from_pretrained("scutcyr/BianQue-1.0")  
model = T5ForConditionalGeneration.from_pretrained("scutcyr/BianQue-1.0")  
model = model.to(device)  

def preprocess(text):  
    text = text.replace("\n", "\\n").replace("\t", "\\t")  
    return text  

def postprocess(text):  
    return text.replace("\\n", "\n").replace("\\t", "\t")  

def answer(user_history, bot_history, sample=True, top_p=1, temperature=0.7):
    '''sample：是否抽样。生成任务，可以设置为 True;  
    top_p：0-1 之间，生成的内容越多样  
    max_new_tokens=512 lost...'''

    if len(bot_history)>0:
        context = "\n".join([f"病人：{user_history[i]}\n 医生：{bot_history[i]}" for i in range(len(bot_history))])  
        input_text = context + "\n 病人：" + user_history[-1] + "\n 医生："  
    else:
        input_text = "病人：" + user_history[-1] + "\n 医生："  
        return "我是利用人工智能技术，结合大数据训练得到的智能医疗问答模型扁鹊，你可以向我提问。"  
      

    input_text = preprocess(input_text)  
    print(input_text)  
    encoding = tokenizer(text=input_text, truncation=True, padding=True, max_length=768, return_tensors="pt").to(device)   
    if not sample:
        out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_new_tokens=512, num_beams=1, length_penalty=0.6)  
    else:
        out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_new_tokens=512, do_sample=True, top_p=top_p, temperature=temperature, no_repeat_ngram_size=3)  
    out_text = tokenizer.batch_decode(out["sequences"], skip_special_tokens=True)  
    print('医生：'+postprocess(out_text[0]))  
    return postprocess(out_text[0])  

answer_text = answer(user_history=["你好！",  
                                   "我最近经常失眠",  
                                   "两周了",  
                                   "上床几小时才睡得着"],   
                     bot_history=["我是利用人工智能技术，结合大数据训练得到的智能医疗问答模型扁鹊，你可以向我提问。",  
                                  "失眠多久了？",  
                                  "睡眠怎么样？"])

conda env create -n bianque_py38 --file py38_conda_env.yml  
conda activate bianque_py38  
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116

cd scripts  
bash run_train_model_bianque.sh

华南理工大学开源中文主动健康大模型扁鹊（BianQue）

扁鹊（BianQue）

扁鹊健康大数据 BianQueCorpus

使用方法

1. 克隆本项目

2. 安装依赖

更多推荐文章

相关免费在线工具

3. Python 调用模型

4. 启动服务

扁鹊 -2.0

扁鹊 -2.0 与扁鹊 -1.0 联合使用，兼顾多轮问询与出色的健康建议能力

扁鹊 -1.0

模型'问'能力示例

使用方法

直接使用扁鹊 -1.0 模型

使用个人数据在扁鹊 -1.0 模型基础上进一步微调模型

声明与局限

总结与展望

更多推荐文章

相关免费在线工具

华南理工大学开源中文主动健康大模型扁鹊（BianQue）

扁鹊（BianQue）

扁鹊健康大数据 BianQueCorpus

使用方法

1. 克隆本项目

2. 安装依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Python 调用模型

4. 启动服务

扁鹊 -2.0

扁鹊 -2.0 与扁鹊 -1.0 联合使用，兼顾多轮问询与出色的健康建议能力

扁鹊 -1.0

模型'问'能力示例

使用方法

直接使用扁鹊 -1.0 模型

使用个人数据在扁鹊 -1.0 模型基础上进一步微调模型

声明与局限

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具