npj Digital Medicine IF=15.1 | ThyGPT多模态大模型:甲状腺结节活检率降40%+

npj Digital Medicine IF=15.1 | ThyGPT多模态大模型:甲状腺结节活检率降40%+

引言

甲状腺结节是成人高发的内分泌疾病,患病率超 60%,且女性发病率是男性的 3 倍。尽管多数结节为良性(仅 7-15% 恶性),但临床诊断中,超声依赖放射科医生经验、细针穿刺(FNA)仍有 15% 不确定性,导致过度诊疗问题突出 —— 不必要的活检或手术不仅给患者带来身心创伤,还大幅增加医疗支出。

传统 AI 辅助诊断(CAD)模型虽能分析超声图像,却因 “黑箱特性”(无法解释决策依据)和 “沉默特性”(仅输出分数 / 标签无交互),难以被临床接纳。为此,中国团队研发了甲状腺结节多模态生成式预训练模型(ThyGPT) ,首次提出 AIGC-CAD 概念,通过自然语言交互实现透明诊断,助力医生降低活检率、减少漏诊,为甲状腺结节诊疗提供新范式。

基本信息

在这里插入图片描述
  • 文章标题:Multimodal GPT model for assisting thyroid nodule diagnosis and management
  • 期刊:npj Digital Medicine
  • 影响因子:IF=15.1
  • 发表时间:2025 年 5 月 3 日
  • 研究单位:浙江肿瘤医院、浙江大学、浙江中医药大学附属第一医院等 9 家中国医院 / 科研机构(多中心联合研究)
  • 数据集
    1. 总样本:59,406 例甲状腺结节患者,覆盖 9 家医院
    2. 图像数据:511,620 张超声图像(来自 65 台不同品牌超声设备)
    3. 文本数据:49,733 份超声报告、11 份甲状腺结节诊断指南
    4. 验证集:2 个独立测试集(测试集 1:2964 患者 3376 结节,含病理结果;测试集 2:1263 份报告,含 157 份错误报告)
  • 代码地址:https://github.com/seista131/ThyGPT
  • 论文地址:https://www.nature.com/articles/s41746-025-01652-9

研究背景与意义

临床中,甲状腺结节的风险评估依赖超声(US)细针穿刺活检(FNA) 两大手段,但存在明显痛点:

  1. 诊断主观性强:超声结果高度依赖医生经验,不同医生对同一结节的判断可能差异显著;
  2. FNA 局限性:约 15% 结节经 FNA 后仍无法确定良恶性,导致 “过度活检”(良性结节也穿刺)或 “漏诊”(恶性结节未穿刺);
  3. 传统 CAD 瓶颈:现有模型仅能提取图像特征输出分数,医生无法知晓 “模型为何这么判”,且无交互能力 —— 若模型出错(如 AI 幻觉),医生难以识别,最终导致多数医院放弃使用 CAD。

这些问题直接引发过度诊疗危机:据统计,全球每年有大量良性甲状腺结节患者接受不必要的穿刺或手术,仅中国每年因此产生的额外医疗支出超 10 亿元。因此,研发透明、可交互、高精准的 AI 辅助工具,成为解决甲状腺结节诊疗痛点的关键。

研究内容与方法

ThyGPT 的核心设计围绕 “多模态融合 + 临床实用性” 展开,从数据集构建、网络结构到训练方法,均贴合真实临床场景。

数据集构建(多中心 + 分层验证)

为确保模型泛化性,团队设计了 “1 个训练集 + 2 个独立测试集”,覆盖不同医院、设备和临床场景,详细信息如下:

数据集类型来源医院样本量核心用途关键特征
训练集中心 1-456,285 例患者;487,246 张超声图;48,470 份报告;11 份指南模型训练与参数优化含完整病理结果、标准化图像标注(结节边界、回声、钙化等)
测试集 1中心 5-82964 例患者;3376 个结节(1601 个恶性)评估诊断准确率与活检减少效果所有结节均有手术病理结果(金标准),可验证漏诊 / 误诊率
测试集 2中心 5+91263 份超声报告(157 份含错误)评估报告错误检测能力错误分 5 类:遗漏(35 例)、插入(30 例)、侧别混淆(33 例)、不一致(36 例)、其他(23 例)

数据预处理细节

  1. 图像标注:由 2 名 10 年以上经验的超声科医生用 Labelme 工具手动标注结节边界、钙化区等语义特征,确保标注一致性;
  2. 图像标准化:所有超声图 resize 至 224×224 像素(保持原比例防失真),像素强度归一化至 [0,1],再标准化为均值 0、标准差 1,消除设备参数差异影响;
  3. 数据增强:为提升模型鲁棒性,采用多策略增强:
    • 几何变换:旋转 ±10°、随机裁剪(保留≥85% 结节区域)、缩放 80-120%;

强度变换:亮度 ±15%、对比度 ±10%、添加高斯噪声(σ=0.01),模拟真实成像差异

ThyGPT 数据集队列设计图(展示主队列与两个外部测试队列的样本筛选流程、排除标准及数据分布)

网络结构(多模态 Transformer+LLaMA3 基础)

ThyGPT 以LLaMA3 大模型为基础框架,融合 Transformer 多头部自注意力机制,实现 “超声图像 + 文本(报告 / 指南)+ 病理结果” 的跨模态理解,结构分为 3 大模块:

1. 输入嵌入模块(多模态融合入口)
  • 图像嵌入:超声图像经卷积层提取视觉特征后,通过线性映射转化为与文本 token 维度一致的向量;
  • 文本嵌入:超声报告、诊断指南等文本经 LLaMA3 的 tokenizer 处理,生成文本向量;
  • 跨模态对齐:通过注意力机制将图像向量与文本向量融合,建立 “图像特征 - 文字描述” 的语义关联(如 “钙化” 在图像中的位置与报告中 “存在微钙化” 的对应)。
2. 核心推理模块(诊断与解释生成)
  • 多头部自注意力:并行计算不同维度的特征权重(如结节边界、回声、钙化对恶性风险的贡献),输出可解释的特征重要性;
  • 生成式解码器:基于融合特征生成自然语言诊断结果,包括:
    • 恶性风险评分(0-1 分);
    • 关键特征分析(如 “75% 恶性风险来自结节边缘,19% 来自点状钙化”);
    • 指南依据(如 “符合 ACR TI-RADS 4 类标准”)。
3. 交互反馈模块(医生 - 模型对话)

支持医生通过自然语言提问获取细节,例如:

  • 医生提问:“为何判断该结节为恶性?”

模型回复:“基于超声图像中结节边界不清、存在微钙化,结合病理数据库中相似案例的恶性率 92%,故给出 0.83 的恶性评分”。

在这里插入图片描述


ThyGPT 模型整体架构图(展示输入数据类型、模块连接关系及交互流程)

训练方法(两阶段训练 + 临床规则融入)

1. 第一阶段:预训练(特征学习)
  • 数据输入:训练集的超声图像、报告、指南文本;
  • 目标函数:交叉熵损失(匹配图像特征与文本描述的一致性)+ 均方误差(优化恶性风险评分与病理结果的偏差);
  • 训练参数:批次大小 32,学习率 2.5×10⁻⁷,余弦退火调度,训练步数 1500。
2. 第二阶段:微调(临床适配)
  • 数据输入:带病理结果的结节样本(确保评分与真实恶性率对齐);
  • 融入临床规则:将 ACR TI-RADS 等指南中的分类标准转化为约束条件(如 “存在微钙化则 TI-RADS 类别不低于 4 类”);
  • 目标函数:新增 “临床一致性损失”,惩罚与指南冲突的输出;
  • 训练参数:冻结预训练模型的底层参数,仅微调解码器,学习率 1×10⁻⁴,训练步数 3000。
3. 评估方法

采用临床常用指标评估性能:

  • 诊断准确性:AUC(ROC 曲线下面积)、灵敏度(TPR)、特异度(TNR)、阳性预测值(PPV)、阴性预测值(NPV);
  • 临床价值:活检率降低比例、漏诊率变化;
  • 纠错能力:错误检测率、处理速度(与人类医生对比)。

实验结果分析

ThyGPT 的实验验证围绕 “辅助诊断” 和 “报告纠错” 两大核心功能展开,结果均通过独立测试集验证,且具有统计学显著性(p<0.001)。

辅助诊断:医生准确率大幅提升,活检率降 40%+

1. 放射科医生诊断性能提升

对比 “无辅助”“传统热图辅助”“ThyGPT 辅助” 三种场景,6 名医生(3 名初级:<5 年经验;3 名高级:>10 年经验)的诊断能力显著提升:

评估指标无辅助(平均)热图辅助(平均)ThyGPT 辅助(平均)p 值
AUC0.8050.8480.908<0.001
灵敏度(TPR)0.8020.8270.8930.030
特异度(TNR)0.8090.8680.922<0.001
正确改变率--10.5%-
错误改变率--0.2%-
  • 分层差异:初级医生诊断改变率(11.5%)高于高级医生(9.9%),说明 ThyGPT 对经验不足的医生辅助价值更显著;

关键突破:ThyGPT 辅助下,高级医生 AUC 达 0.916,初级医生达 0.899,接近高级医生无辅助水平,缩小了不同经验医生的诊断差距。

ThyGPT 辅助诊断 ROC 曲线(展示 ThyGPT 单独诊断、医生无辅助、医生 + ThyGPT 的 ROC 曲线对比,橙色点为 ThyGPT 辅助后的医生表现,显著优于其他组)
2. 减少不必要活检,降低漏诊率

基于 ThyGPT 的恶性风险评分,团队设计了临床决策规则:

  • 高 PPV 结节(评分 > 0.7,PPV>0.96):可跳过 FNA 直接考虑手术;
  • 中风险结节(0.3≤评分≤0.7):结合 ACR 指南决定是否 FNA;
  • 高 NPV 结节(评分 <0.3,NPV>0.975):仅随访,无需 FNA。

应用该规则后,测试集 1 的活检率从64.2% 降至 23.3% (减少超 40%),而恶性结节漏诊率从11.6% 降至 5.3% ,实现 “减少创伤” 与 “保障精准” 的平衡。

活检率与漏诊率变化图(展示 ACR 指南 vs ThyGPT 辅助的活检比例、漏诊比例对比,绿色方块为漏诊率变化)

报告纠错:速度比人快 1610 倍,错误检测率 90.5%

测试集 2 中,ThyGPT 与 3 名初级、3 名高级医生的报告错误检测能力对比:

  • 错误检测率:ThyGPT 达 90.5%(142/157 例错误),显著高于医生平均水平(76.4%);
  • 医生 + ThyGPT:医生错误检测率提升至 96.2%(151/157 例),接近完美;
  • 处理速度:ThyGPT 平均每报告处理时间 0.031 秒,医生平均 49.9 秒,速度提升1610 倍

错误类型适配:对 “侧别混淆”(如左甲状腺写成右)错误检测率 100%,对 “特征不一致”(报告说无钙化但图像有钙化)检测率 89.2%。

在这里插入图片描述


报告错误检测结果(展示不同错误类型下,医生、ThyGPT、医生+ThyGPT 的检测率对比, 侧别混淆错误的检测率最高)

亚型识别挑战:FTC 最难诊断,小结节漏诊率高

尽管整体性能优异,ThyGPT 在特定结节亚型上仍有局限:

  • 恶性亚型差异:滤泡状甲状腺癌(FTC)漏诊率最高 —— 医生漏诊 44.7%,ThyGPT 漏诊 17.0%,虽优于医生但仍需优化;
  • 小结节问题:直径 < 10mm 的结节(尤其 ACR TR3 类)漏诊率高于大结节,主要因小结节特征不明显(如钙化、边界模糊难以识别)。

优势与局限

优势

  1. 透明可解释:通过自然语言交互输出诊断依据(如 “恶性风险来自边缘特征”),解决传统 CAD “黑箱” 问题,提升医生信任度;
  2. 临床价值落地:同时实现 “降活检率” 和 “提准确率”,直接减少患者创伤与医疗支出,符合临床需求;
  3. 多场景适配:支持多语言(p=0.816)、兼容 65 台不同超声设备,可在不同地区、不同级别医院推广;
  4. 人机协作优化:不替代医生,而是作为 “AI 副驾”—— 医生可质疑模型结论并要求重新分析(如论文中医生纠正模型对 “钙化区” 的误判,模型重新输出正确结果)。

局限

  1. 亚型识别不足:对 FTC 等少见恶性亚型的识别能力弱于乳头状甲状腺癌(PTC),需扩大少见亚型样本量;
  2. 阈值依赖性:PPV、NPV 随风险评分阈值变化,临床应用时需根据医院患者群体(如恶性率高低)调整阈值;
  3. 设备差异影响:不同品牌超声设备的图像质量差异仍会干扰模型判断,虽经数据增强仍无法完全消除;
  4. 无法独立诊断:存在 AI 幻觉风险(如错误识别钙化),需医生监督,不能单独用于诊断。

参考文献

  1. 《Deep learning models for thyroid nodules diagnosis of fine-needle aspiration biopsy》Wang J et al.(2024)首个基于深度学习的甲状腺 FNA 活检辅助诊断模型,验证了 AI 在甲状腺结节病理分析中的价值。本文在其基础上拓展至 “超声图像 + 文本” 多模态,解决了 FNA 前的超声诊断痛点,形成 “超声筛查 - FNA 验证” 的全流程辅助。
  2. 《Collaborative enhancement of consistency and accuracy in US diagnosis of thyroid nodules using large language models》Wu S et al.(2024)首次将 LLM 用于甲状腺超声诊断的一致性提升,但仅支持文本交互,无图像分析能力。本文整合 LLM 与计算机视觉,实现 “图像理解 + 文本交互” 双功能,是对其技术的关键突破。
  3. 《The clinical value of artificial intelligence in assisting junior radiologists in thyroid ultrasound》Xu D et al.(2024)验证了 AI 对初级放射科医生的辅助价值,但模型为传统 CAD,无解释性。本文继承 “辅助初级医生” 的目标,通过 ThyGPT 的可解释性进一步提升临床接纳度。

Read more

AI艺术社区推荐:5个Stable Diffusion云端协作平台

AI艺术社区推荐:5个Stable Diffusion云端协作平台 你是否也遇到过这样的情况:社团成员各自用本地电脑跑Stable Diffusion,结果有人显卡不够、有人环境配不起来,作品风格五花八门,想一起搞个联合创作项目却根本没法同步?别急——这正是我们今天要解决的问题。 随着AI绘画的普及,越来越多的艺术社团开始尝试用Stable Diffusion进行集体创作。但传统的单机模式已经跟不上节奏了。真正的未来,在于云端协作:所有人共享模型、提示词、参数配置,实时查看彼此生成进度,还能一键部署展示空间。听起来很复杂?其实现在已经有多个成熟的云端Stable Diffusion协作平台,专为团队设计,支持多人在线编辑、版本管理、资源共用,甚至能直接对外发布Web服务。 本文将结合ZEEKLOG星图提供的算力资源和预置镜像能力,为你盘点5个最适合艺术社团使用的Stable Diffusion云端协作平台。这些平台都具备以下特点: * 支持一键部署Stable Diffusion WebUI或ComfyUI * 提供GPU加速(如A100/V100等),确保出图流畅 *

By Ne0inhk

Discord中创建机器人的流程

主要步骤概览 1. 在 Discord Developer Portal 创建应用(Application) 2. 在应用中创建 Bot(Bot User) 3. 开启必要的权限与 Privileged Intents(特别是 Message Content Intent) 4. 生成邀请链接并把 Bot 邀请进你的服务器 5. 获取 Bot Token 并妥善保存(放到环境变量) 6. (可选)在服务器/频道设置权限,确认 Bot 可以读取消息历史与附件 7. 用 Python 运行最小测试脚本,确认能接收到消息并处理附件 详细步骤 1. 创建应用(Application) * 打开:https://discord.

By Ne0inhk

比 OpenClaw 轻 99%!我用 nanobot 搭了个 QQ AI 机器人,还顺手贡献了代码

❝ 4000 行代码,打造你的私人 AI 助手❞ 前言 最近 AI Agent 领域有个项目特别火——「OpenClaw」,它是一个功能强大的 AI 助手框架,能让你拥有一个 7×24 小时在线的智能助理。 但当我 clone 下来准备研究时,发现它有 「43 万行代码」!对于想快速上手或做二次开发的个人开发者来说,这个体量实在太重了。 直到我发现了它的"轻量版"——「nanobot」。 nanobot:99% 的瘦身,核心功能全保留 nanobot 来自香港大学数据科学实验室(HKUDS),它的设计理念很简单: ❝ 用最少的代码,实现 AI Agent 的核心能力❞ 来看一组对比数据: 项目 代码行数 核心功能 OpenClaw 430,

By Ne0inhk
YOLOv8【第十章:多任务扩展深度篇·第11节】旋转框角度回归优化:CSL(Circular Smooth Label)与 DCL 编码实战!

YOLOv8【第十章:多任务扩展深度篇·第11节】旋转框角度回归优化:CSL(Circular Smooth Label)与 DCL 编码实战!

🏆 本文收录于 《YOLOv8实战:从入门到深度优化》 专栏。该专栏系统复现并梳理全网各类 YOLOv8 改进与实战案例(当前已覆盖分类 / 检测 / 分割 / 追踪 / 关键点 / OBB 检测等方向),坚持持续更新 + 深度解析,质量分长期稳定在 97 分以上,可视为当前市面上 覆盖较全、更新较快、实战导向极强 的 YOLO 改进系列内容之一。 部分章节也会结合国内外前沿论文与 AIGC 等大模型技术,对主流改进方案进行重构与再设计,内容更偏实战与可落地,适合有工程需求的同学深入学习与对标优化。 ✨特惠福利:当前限时活动一折秒杀,一次订阅,终身有效,后续所有更新章节全部免费解锁,👉 点此查看详情 🎯 本文定位:计算机视觉 × 多任务扩展深度系列 📅 更新时间:2026年 🏷️ 难度等级:⭐⭐⭐⭐(高级进阶) 🔧 技术栈:Python 3.9+ · PyTorch

By Ne0inhk