npj Digital Medicine IF=15.1 | ThyGPT多模态大模型:甲状腺结节活检率降40%+
引言
甲状腺结节是成人高发的内分泌疾病,患病率超 60%,且女性发病率是男性的 3 倍。尽管多数结节为良性(仅 7-15% 恶性),但临床诊断中,超声依赖放射科医生经验、细针穿刺(FNA)仍有 15% 不确定性,导致过度诊疗问题突出 —— 不必要的活检或手术不仅给患者带来身心创伤,还大幅增加医疗支出。
传统 AI 辅助诊断(CAD)模型虽能分析超声图像,却因 “黑箱特性”(无法解释决策依据)和 “沉默特性”(仅输出分数 / 标签无交互),难以被临床接纳。为此,中国团队研发了甲状腺结节多模态生成式预训练模型(ThyGPT) ,首次提出 AIGC-CAD 概念,通过自然语言交互实现透明诊断,助力医生降低活检率、减少漏诊,为甲状腺结节诊疗提供新范式。
基本信息
- 文章标题:Multimodal GPT model for assisting thyroid nodule diagnosis and management
- 期刊:npj Digital Medicine
- 影响因子:IF=15.1
- 发表时间:2025 年 5 月 3 日
- 研究单位:浙江肿瘤医院、浙江大学、浙江中医药大学附属第一医院等 9 家中国医院 / 科研机构(多中心联合研究)
- 数据集:
- 总样本:59,406 例甲状腺结节患者,覆盖 9 家医院
- 图像数据:511,620 张超声图像(来自 65 台不同品牌超声设备)
- 文本数据:49,733 份超声报告、11 份甲状腺结节诊断指南
- 验证集:2 个独立测试集(测试集 1:2964 患者 3376 结节,含病理结果;测试集 2:1263 份报告,含 157 份错误报告)
- 代码地址:https://github.com/seista131/ThyGPT
- 论文地址:https://www.nature.com/articles/s41746-025-01652-9
研究背景与意义
临床中,甲状腺结节的风险评估依赖超声(US) 和细针穿刺活检(FNA) 两大手段,但存在明显痛点:
- 诊断主观性强:超声结果高度依赖医生经验,不同医生对同一结节的判断可能差异显著;
- FNA 局限性:约 15% 结节经 FNA 后仍无法确定良恶性,导致 “过度活检”(良性结节也穿刺)或 “漏诊”(恶性结节未穿刺);
- 传统 CAD 瓶颈:现有模型仅能提取图像特征输出分数,医生无法知晓 “模型为何这么判”,且无交互能力 —— 若模型出错(如 AI 幻觉),医生难以识别,最终导致多数医院放弃使用 CAD。
这些问题直接引发过度诊疗危机:据统计,全球每年有大量良性甲状腺结节患者接受不必要的穿刺或手术,仅中国每年因此产生的额外医疗支出超 10 亿元。因此,研发透明、可交互、高精准的 AI 辅助工具,成为解决甲状腺结节诊疗痛点的关键。
研究内容与方法
ThyGPT 的核心设计围绕 “多模态融合 + 临床实用性” 展开,从数据集构建、网络结构到训练方法,均贴合真实临床场景。
数据集构建(多中心 + 分层验证)
为确保模型泛化性,团队设计了 “1 个训练集 + 2 个独立测试集”,覆盖不同医院、设备和临床场景,详细信息如下:
| 数据集类型 | 来源医院 | 样本量 | 核心用途 | 关键特征 |
|---|---|---|---|---|
| 训练集 | 中心 1-4 | 56,285 例患者;487,246 张超声图;48,470 份报告;11 份指南 | 模型训练与参数优化 | 含完整病理结果、标准化图像标注(结节边界、回声、钙化等) |
| 测试集 1 | 中心 5-8 | 2964 例患者;3376 个结节(1601 个恶性) | 评估诊断准确率与活检减少效果 | 所有结节均有手术病理结果(金标准),可验证漏诊 / 误诊率 |
| 测试集 2 | 中心 5+9 | 1263 份超声报告(157 份含错误) | 评估报告错误检测能力 | 错误分 5 类:遗漏(35 例)、插入(30 例)、侧别混淆(33 例)、不一致(36 例)、其他(23 例) |
数据预处理细节:
- 图像标注:由 2 名 10 年以上经验的超声科医生用 Labelme 工具手动标注结节边界、钙化区等语义特征,确保标注一致性;
- 图像标准化:所有超声图 resize 至 224×224 像素(保持原比例防失真),像素强度归一化至 [0,1],再标准化为均值 0、标准差 1,消除设备参数差异影响;
- 数据增强:为提升模型鲁棒性,采用多策略增强:
- 几何变换:旋转 ±10°、随机裁剪(保留≥85% 结节区域)、缩放 80-120%;
强度变换:亮度 ±15%、对比度 ±10%、添加高斯噪声(σ=0.01),模拟真实成像差异
网络结构(多模态 Transformer+LLaMA3 基础)
ThyGPT 以LLaMA3 大模型为基础框架,融合 Transformer 多头部自注意力机制,实现 “超声图像 + 文本(报告 / 指南)+ 病理结果” 的跨模态理解,结构分为 3 大模块:
1. 输入嵌入模块(多模态融合入口)
- 图像嵌入:超声图像经卷积层提取视觉特征后,通过线性映射转化为与文本 token 维度一致的向量;
- 文本嵌入:超声报告、诊断指南等文本经 LLaMA3 的 tokenizer 处理,生成文本向量;
- 跨模态对齐:通过注意力机制将图像向量与文本向量融合,建立 “图像特征 - 文字描述” 的语义关联(如 “钙化” 在图像中的位置与报告中 “存在微钙化” 的对应)。
2. 核心推理模块(诊断与解释生成)
- 多头部自注意力:并行计算不同维度的特征权重(如结节边界、回声、钙化对恶性风险的贡献),输出可解释的特征重要性;
- 生成式解码器:基于融合特征生成自然语言诊断结果,包括:
- 恶性风险评分(0-1 分);
- 关键特征分析(如 “75% 恶性风险来自结节边缘,19% 来自点状钙化”);
- 指南依据(如 “符合 ACR TI-RADS 4 类标准”)。
3. 交互反馈模块(医生 - 模型对话)
支持医生通过自然语言提问获取细节,例如:
- 医生提问:“为何判断该结节为恶性?”
模型回复:“基于超声图像中结节边界不清、存在微钙化,结合病理数据库中相似案例的恶性率 92%,故给出 0.83 的恶性评分”。
训练方法(两阶段训练 + 临床规则融入)
1. 第一阶段:预训练(特征学习)
- 数据输入:训练集的超声图像、报告、指南文本;
- 目标函数:交叉熵损失(匹配图像特征与文本描述的一致性)+ 均方误差(优化恶性风险评分与病理结果的偏差);
- 训练参数:批次大小 32,学习率 2.5×10⁻⁷,余弦退火调度,训练步数 1500。
2. 第二阶段:微调(临床适配)
- 数据输入:带病理结果的结节样本(确保评分与真实恶性率对齐);
- 融入临床规则:将 ACR TI-RADS 等指南中的分类标准转化为约束条件(如 “存在微钙化则 TI-RADS 类别不低于 4 类”);
- 目标函数:新增 “临床一致性损失”,惩罚与指南冲突的输出;
- 训练参数:冻结预训练模型的底层参数,仅微调解码器,学习率 1×10⁻⁴,训练步数 3000。
3. 评估方法
采用临床常用指标评估性能:
- 诊断准确性:AUC(ROC 曲线下面积)、灵敏度(TPR)、特异度(TNR)、阳性预测值(PPV)、阴性预测值(NPV);
- 临床价值:活检率降低比例、漏诊率变化;
- 纠错能力:错误检测率、处理速度(与人类医生对比)。
实验结果分析
ThyGPT 的实验验证围绕 “辅助诊断” 和 “报告纠错” 两大核心功能展开,结果均通过独立测试集验证,且具有统计学显著性(p<0.001)。
辅助诊断:医生准确率大幅提升,活检率降 40%+
1. 放射科医生诊断性能提升
对比 “无辅助”“传统热图辅助”“ThyGPT 辅助” 三种场景,6 名医生(3 名初级:<5 年经验;3 名高级:>10 年经验)的诊断能力显著提升:
| 评估指标 | 无辅助(平均) | 热图辅助(平均) | ThyGPT 辅助(平均) | p 值 |
|---|---|---|---|---|
| AUC | 0.805 | 0.848 | 0.908 | <0.001 |
| 灵敏度(TPR) | 0.802 | 0.827 | 0.893 | 0.030 |
| 特异度(TNR) | 0.809 | 0.868 | 0.922 | <0.001 |
| 正确改变率 | - | - | 10.5% | - |
| 错误改变率 | - | - | 0.2% | - |
- 分层差异:初级医生诊断改变率(11.5%)高于高级医生(9.9%),说明 ThyGPT 对经验不足的医生辅助价值更显著;
关键突破:ThyGPT 辅助下,高级医生 AUC 达 0.916,初级医生达 0.899,接近高级医生无辅助水平,缩小了不同经验医生的诊断差距。
2. 减少不必要活检,降低漏诊率
基于 ThyGPT 的恶性风险评分,团队设计了临床决策规则:
- 高 PPV 结节(评分 > 0.7,PPV>0.96):可跳过 FNA 直接考虑手术;
- 中风险结节(0.3≤评分≤0.7):结合 ACR 指南决定是否 FNA;
- 高 NPV 结节(评分 <0.3,NPV>0.975):仅随访,无需 FNA。
应用该规则后,测试集 1 的活检率从64.2% 降至 23.3% (减少超 40%),而恶性结节漏诊率从11.6% 降至 5.3% ,实现 “减少创伤” 与 “保障精准” 的平衡。
报告纠错:速度比人快 1610 倍,错误检测率 90.5%
测试集 2 中,ThyGPT 与 3 名初级、3 名高级医生的报告错误检测能力对比:
- 错误检测率:ThyGPT 达 90.5%(142/157 例错误),显著高于医生平均水平(76.4%);
- 医生 + ThyGPT:医生错误检测率提升至 96.2%(151/157 例),接近完美;
- 处理速度:ThyGPT 平均每报告处理时间 0.031 秒,医生平均 49.9 秒,速度提升1610 倍;
错误类型适配:对 “侧别混淆”(如左甲状腺写成右)错误检测率 100%,对 “特征不一致”(报告说无钙化但图像有钙化)检测率 89.2%。
亚型识别挑战:FTC 最难诊断,小结节漏诊率高
尽管整体性能优异,ThyGPT 在特定结节亚型上仍有局限:
- 恶性亚型差异:滤泡状甲状腺癌(FTC)漏诊率最高 —— 医生漏诊 44.7%,ThyGPT 漏诊 17.0%,虽优于医生但仍需优化;
- 小结节问题:直径 < 10mm 的结节(尤其 ACR TR3 类)漏诊率高于大结节,主要因小结节特征不明显(如钙化、边界模糊难以识别)。
优势与局限
优势
- 透明可解释:通过自然语言交互输出诊断依据(如 “恶性风险来自边缘特征”),解决传统 CAD “黑箱” 问题,提升医生信任度;
- 临床价值落地:同时实现 “降活检率” 和 “提准确率”,直接减少患者创伤与医疗支出,符合临床需求;
- 多场景适配:支持多语言(p=0.816)、兼容 65 台不同超声设备,可在不同地区、不同级别医院推广;
- 人机协作优化:不替代医生,而是作为 “AI 副驾”—— 医生可质疑模型结论并要求重新分析(如论文中医生纠正模型对 “钙化区” 的误判,模型重新输出正确结果)。
局限
- 亚型识别不足:对 FTC 等少见恶性亚型的识别能力弱于乳头状甲状腺癌(PTC),需扩大少见亚型样本量;
- 阈值依赖性:PPV、NPV 随风险评分阈值变化,临床应用时需根据医院患者群体(如恶性率高低)调整阈值;
- 设备差异影响:不同品牌超声设备的图像质量差异仍会干扰模型判断,虽经数据增强仍无法完全消除;
- 无法独立诊断:存在 AI 幻觉风险(如错误识别钙化),需医生监督,不能单独用于诊断。
参考文献
- 《Deep learning models for thyroid nodules diagnosis of fine-needle aspiration biopsy》Wang J et al.(2024)首个基于深度学习的甲状腺 FNA 活检辅助诊断模型,验证了 AI 在甲状腺结节病理分析中的价值。本文在其基础上拓展至 “超声图像 + 文本” 多模态,解决了 FNA 前的超声诊断痛点,形成 “超声筛查 - FNA 验证” 的全流程辅助。
- 《Collaborative enhancement of consistency and accuracy in US diagnosis of thyroid nodules using large language models》Wu S et al.(2024)首次将 LLM 用于甲状腺超声诊断的一致性提升,但仅支持文本交互,无图像分析能力。本文整合 LLM 与计算机视觉,实现 “图像理解 + 文本交互” 双功能,是对其技术的关键突破。
- 《The clinical value of artificial intelligence in assisting junior radiologists in thyroid ultrasound》Xu D et al.(2024)验证了 AI 对初级放射科医生的辅助价值,但模型为传统 CAD,无解释性。本文继承 “辅助初级医生” 的目标,通过 ThyGPT 的可解释性进一步提升临床接纳度。