ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

甲状腺结节是成人高发的内分泌疾病，患病率超 60%，且女性发病率是男性的 3 倍。尽管多数结节为良性（仅 7-15% 恶性），但临床诊断中，超声依赖放射科医生经验、细针穿刺（FNA）仍有 15% 不确定性，导致过度诊疗问题突出 —— 不必要的活检或手术不仅给患者带来身心创伤，还大幅增加医疗支出。

传统 AI 辅助诊断（CAD）模型虽能分析超声图像，却因'黑箱特性'（无法解释决策依据）和'沉默特性'（仅输出分数/标签无交互），难以被临床接纳。为此，中国团队研发了甲状腺结节多模态生成式预训练模型（ThyGPT），首次提出 AIGC-CAD 概念，通过自然语言交互实现透明诊断，助力医生降低活检率、减少漏诊，为甲状腺结节诊疗提供新范式。

基本信息

![图片]

文章标题：Multimodal GPT model for assisting thyroid nodule diagnosis and management
期刊：npj Digital Medicine
影响因子：IF=15.1
发表时间：2025 年 5 月 3 日
研究单位：浙江肿瘤医院、浙江大学、浙江中医药大学附属第一医院等 9 家中国医院/科研机构（多中心联合研究）
数据集：
1. 总样本：59,406 例甲状腺结节患者，覆盖 9 家医院
2. 图像数据：511,620 张超声图像（来自 65 台不同品牌超声设备）
3. 文本数据：49,733 份超声报告、11 份甲状腺结节诊断指南
4. 验证集：2 个独立测试集（测试集 1：2964 患者 3376 结节，含病理结果；测试集 2：1263 份报告，含 157 份错误报告）
代码地址：https://github.com/seista131/ThyGPT
论文地址：https://www.nature.com/articles/s41746-025-01652-9

研究背景与意义

临床中，甲状腺结节的风险评估依赖**超声（US）和细针穿刺活检（FNA）**两大手段，但存在明显痛点：

诊断主观性强：超声结果高度依赖医生经验，不同医生对同一结节的判断可能差异显著；
FNA 局限性：约 15% 结节经 FNA 后仍无法确定良恶性，导致'过度活检'（良性结节也穿刺）或'漏诊'（恶性结节未穿刺）；
传统 CAD 瓶颈：现有模型仅能提取图像特征输出分数，医生无法知晓'模型为何这么判'，且无交互能力 —— 若模型出错（如 AI 幻觉），医生难以识别，最终导致多数医院放弃使用 CAD。

这些问题直接引发过度诊疗危机：据统计，全球每年有大量良性甲状腺结节患者接受不必要的穿刺或手术，仅中国每年因此产生的额外医疗支出超 10 亿元。因此，研发透明、可交互、高精准的 AI 辅助工具，成为解决甲状腺结节诊疗痛点的关键。

研究内容与方法

ThyGPT 的核心设计围绕'多模态融合 + 临床实用性'展开，从数据集构建、网络结构到训练方法，均贴合真实临床场景。

数据集构建（多中心 + 分层验证）

为确保模型泛化性，团队设计了'1 个训练集 + 2 个独立测试集'，覆盖不同医院、设备和临床场景，详细信息如下：

数据集类型	来源医院	样本量	核心用途	关键特征
训练集	中心 1-4

评估指标	无辅助（平均）	热图辅助（平均）	ThyGPT 辅助（平均）	p 值
AUC	0.805	0.848	0.908	<0.001
灵敏度（TPR）	0.802	0.827	0.893	0.030
特异度（TNR）	0.809	0.868	0.922	<0.001
正确改变率	-	-	10.5%	-
错误改变率	-	-	0.2%	-

ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

基本信息

研究背景与意义

研究内容与方法

数据集构建（多中心 + 分层验证）

更多推荐文章

相关免费在线工具

网络结构（多模态 Transformer+LLaMA3 基础）

1. 输入嵌入模块（多模态融合入口）

2. 核心推理模块（诊断与解释生成）

3. 交互反馈模块（医生 - 模型对话）

训练方法（两阶段训练 + 临床规则融入）

1. 第一阶段：预训练（特征学习）

2. 第二阶段：微调（临床适配）

3. 评估方法

实验结果分析

辅助诊断：医生准确率大幅提升，活检率降 40%+

1. 放射科医生诊断性能提升

2. 减少不必要活检，降低漏诊率

报告纠错：速度比人快 1610 倍，错误检测率 90.5%

亚型识别挑战：FTC 最难诊断，小结节漏诊率高

优势与局限

优势

更多推荐文章

相关免费在线工具

ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

基本信息

研究背景与意义

研究内容与方法

数据集构建（多中心 + 分层验证）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

网络结构（多模态 Transformer+LLaMA3 基础）

1. 输入嵌入模块（多模态融合入口）

2. 核心推理模块（诊断与解释生成）

3. 交互反馈模块（医生 - 模型对话）

训练方法（两阶段训练 + 临床规则融入）

1. 第一阶段：预训练（特征学习）

2. 第二阶段：微调（临床适配）

3. 评估方法

实验结果分析

辅助诊断：医生准确率大幅提升，活检率降 40%+

1. 放射科医生诊断性能提升

2. 减少不必要活检，降低漏诊率

报告纠错：速度比人快 1610 倍，错误检测率 90.5%

亚型识别挑战：FTC 最难诊断，小结节漏诊率高

优势与局限

优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具