概述
扁鹊是华南理工大学未来技术学院 - 广东省数字孪生人重点实验室开源的中文医疗大模型,该模型基于千万规模的中文健康对话数据进行精细的指令微调而形成。这一项目目的在于推动中文医疗健康领域的人工智能应用,尤其是在预防性医疗和精准健康咨询中的应用。
扁鹊 2.0
继扁鹊模型之后,开发团队基于扁鹊健康大数据集,选择了 ChatGLM-6B 作为初始模型,并对其进行了全参数的精细指令微调,成功开发出了新一代模型 BianQue-2.0。此次升级不仅继承了原有模型的核心功能,还在多方面进行了创新和拓展。
数据层面的扩展
与前一代 BianQue-1.0 模型相比,BianQue-2.0 在数据层面进行了显著的扩展:
新增药品说明书查询:增加了针对常见和关键药品的详细说明书信息,使模型能够提供关于药物成分、作用机理、使用指南等详尽信息。
医学百科知识集成:融入了广泛的医学百科知识,涵盖从基础医学到临床应用的各个方面,极大丰富了模型的知识基础。
ChatGPT 蒸馏指令集成:通过集成与蒸馏 ChatGPT 相关的医疗健康指令,模型在处理复杂健康咨询对话时的性能得到了进一步提升。
技术创新
BianQue-2.0 采用了最新的自然语言处理技术,确保了模型在理解和生成中文医疗对话方面的高效性和准确性。此外,全参数微调使模型更好地适应特定的医疗问询场景,尤其是在模拟医生的多轮对话和进行医学诊断推理方面。
应用前景
BianQue-2.0 的推出,预计将在医疗健康咨询、疾病预防教育、慢性病管理等领域发挥重要作用,帮助医疗专业人员与普通用户获取更快速、更准确的健康信息和医疗建议。
通过这些创新和扩展,BianQue-2.0 不仅在技术上实现了突破,更在医疗人工智能的实际应用中展示了广阔的应用潜力和实际价值。
应用实例
-
样例 1:用户询问'宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊?'扁鹊 -2.0 能够基于现有的医学知识库提供可能的原因和预防措施。
-
样例 2:当用户描述'我外婆近来身体越来越差了,医生说她得了肾静脉血栓,担心极了',扁鹊 -2.0 能够查询相关的药理毒理信息,并给出医学建议。
这些功能和创新点使得扁鹊 -2.0 不仅是一个技术上的突破,更是医疗健康 AI 领域应用的重要进展。
扁鹊健康大数据
在健康领域,用户在单轮交互中往往无法清晰完整地描述自己的问题。即使是 ChatGPT,在没有明确指示采用问答形式的情况下,也会倾向于根据用户的描述迅速提供建议和方案。这忽略了实际医疗咨询中医生会根据用户描述进行多轮深入询问的情况。
如下图所示,扁鹊大模型开发团队把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。
此外,扁鹊大模型开发团队通过深入分析多个开源中文医疗问答数据集,如 MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、cMedQA2 和 Chinese-medical-dialogue-data,关注了单轮和多轮交互特性以及医生问询行为,同时结合实验室长期积累的生活空间健康对话大数据,成功构建了千万级别规模的扁鹊健康大数据集。
对话数据被统一为一种指令格式。
安装与配置
前提条件
确保您的系统具备以下条件:
Python 3.8 或更高版本。
CUDA-11.6,配合对应的 NVIDIA 驱动,用于支持 GPU 加速。
Conda 环境管理器,用于创建和管理 Python 环境。
安装步骤
克隆项目:打开终端或命令提示符,执行以下命令以克隆 BianQue 项目到本地环境:
cd ~
git clone https://github.com/scutcyr/BianQue.git
设置 Python 环境:进入项目目录,并创建 Python 环境:
cd BianQue
conda create -n proactivehealthgpt_py38 --file proactivehealthgpt_py38.yml
conda activate proactivehealthgpt_py38


