AI 大模型实践：医学影像肺结节分类器

AI 大模型实践：医学影像肺结节分类器 | 极客日志

import pydicom
import numpy as np
import pandas as pd
import os
from torch.utils.data import Dataset
import albumentations as A
from albumentations.pytorch import ToTensorV2
from monai.transforms import Compose, Resize, RandRotate, RandFlip, ToTensor

# 自定义数据集
class LUNA16Dataset(Dataset):
    def __init__(self, dicom_dir, annotations_file, mode='2d', transform=None):
        """ LUNA16 数据集
        :param dicom_dir: DICOM 文件目录
        :param annotations_file: 标注 CSV 文件
        :param mode: '2d' 或 '3d'（切片或体块）
        :param transform: 数据增强
        """
        self.dicom_dir = dicom_dir
        self.annotations = pd.read_csv(annotations_file)
        self.mode = mode
        self.transform = transform

    def __len__(self):
        return len(self.annotations)

    def __getitem__(self, idx):
        # 读取 DICOM
        dicom_id = self.annotations.iloc[idx]['dicom_id']
        dicom_path = os.path.join(self.dicom_dir, dicom_id)
        ds = pydicom.dcmread(dicom_path)
        image = ds.pixel_array.astype(np.float32)
        # [H, W] 或 [D, H, W]
        
        # 归一化
        image = (image - np.min(image)) / (np.max(image) - np.min(image) + 1e-6)
        
        # 提取结节区域
        if self.mode == '2d':
            x, y, w, h, z = self.annotations.iloc[idx][['x','y','width','height','z']].values
            image = image[z, y:y+h, x:x+w]  # 2D 切片
        else:
            # 3d
            x, y, z, w, h, d = self.annotations.iloc[idx][['x','y','z','width','height','depth']].values
            image = image[z:z+d, y:y+h, x:x+w]  # 3D 体块
        
        # 数据增强
        if self.transform:
            if self.mode == '2d':
                augmented = self.transform(image=image)
                image = augmented['image']
            else:
                image = self.transform(image[np.newaxis,...])[0]  # 添加通道维度
        
        label = self.annotations.iloc[idx]['label']  # 0: 良性，1: 恶性
        return {'image': image, 'label': torch.tensor(label, dtype=torch.long)}

# 数据增强
transform_2d = A.Compose([
    A.Resize(224, 224),
    A.Rotate(limit=30, p=0.5),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.3),
    A.Normalize(mean=[0.5], std=[0.5]),
    ToTensorV2()
])

transform_3d = Compose([
    Resize(spatial_size=(32, 32, 32)),
    RandRotate(range_x=30, prob=0.5),
    RandFlip(spatial_axis=0, prob=0.5),
    ToTensor()
])

# 加载数据集
dataset_2d = LUNA16Dataset(dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='2d', transform=transform_2d)
dataset_3d = LUNA16Dataset(dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='3d', transform=transform_3d)

import torch
import torch.nn as nn
from torchvision.models import resnet50
from monai.networks.nets import ResNet
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score, confusion_matrix

# 3D ResNet-50
class ResNet3D(nn.Module):
    def __init__(self, num_classes=2):
        super().__init__()
        self.resnet = ResNet(block='bottleneck', layers=[3,4,6,3], spatial_dims=3, n_input_channels=1, num_classes=num_classes)

    def forward(self, x):
        return self.resnet(x)

# 2D ResNet-50
class ResNet2D(nn.Module):
    def __init__(self, num_classes=2):
        super().__init__()
        self.resnet = resnet50(pretrained=True)
        self.resnet.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3)
        self.resnet.fc = nn.Linear(self.resnet.fc.in_features, num_classes)

    def forward(self, x):
        return self.resnet(x)

# 训练函数
def train_model(model, dataloader, criterion, optimizer, num_epochs=10, device='cuda'):
    model = model.to(device)
    train_losses = []
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        avg_loss = running_loss / len(dataloader)
        train_losses.append(avg_loss)
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}')
    return train_losses

# 数据加载器
dataloader_2d = DataLoader(dataset_2d, batch_size=16, shuffle=True)
dataloader_3d = DataLoader(dataset_3d, batch_size=8, shuffle=True)

# 初始化模型
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model_2d = ResNet2D(num_classes=2)
model_3d = ResNet3D(num_classes=2)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device))  # 处理类不平衡

optimizer_2d = torch.optim.Adam(model_2d.parameters(), lr=1e-4, weight_decay=1e-5)
optimizer_3d = torch.optim.Adam(model_3d.parameters(), lr=1e-4, weight_decay=1e-5)

# 训练
train_losses_2d = train_model(model_2d, dataloader_2d, criterion, optimizer_2d, device=device)
train_losses_3d = train_model(model_3d, dataloader_3d, criterion, optimizer_3d, device=device)

# 推理
def evaluate_model(model, dataloader, device='cuda'):
    model.eval()
    predictions, true_labels = [], []
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            outputs = model(images)
            preds = torch.argmax(outputs, dim=1)
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
    return predictions, true_labels

predictions_2d, true_labels_2d = evaluate_model(model_2d, dataloader_2d)
predictions_3d, true_labels_3d = evaluate_model(model_3d, dataloader_3d)
print("2D ResNet 准确率:", accuracy_score(true_labels_2d, predictions_2d))
print("3D ResNet 准确率:", accuracy_score(true_labels_3d, predictions_3d))

from transformers import ViTImageProcessor, ViTForImageClassification
from peft import LoraConfig, get_peft_model
from torch.utils.data import DataLoader
import torch
import matplotlib.pyplot as plt

# 加载 ViT
processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224', num_labels=2)

# LoRA 微调
lora_config = LoraConfig(r=8, lora_alpha=16, target_modules=["query", "value"])
model = get_peft_model(model, lora_config)

# 训练设置
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device))
optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)

# 训练
dataloader = DataLoader(dataset_2d, batch_size=16, shuffle=True)
train_losses = []
for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        outputs = model(**inputs).logits
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    avg_loss = running_loss / len(dataloader)
    train_losses.append(avg_loss)
    print(f'Epoch [{epoch+1}/10], Loss: {avg_loss:.4f}')

# 注意力可视化
def visualize_attention(model, image, processor, device='cuda'):
    model.eval()
    inputs = processor(image, return_tensors='pt', do_rescale=False).to(device)
    with torch.no_grad():
        outputs = model(**inputs, output_attentions=True)
        attentions = outputs.attentions[-1].mean(dim=1).squeeze(0)  # 最后一层注意力
        # 将注意力映射到原始图像
        h, w = image.shape[-2:]
        attn_map = attentions.mean(dim=0).reshape(14, 14).cpu().numpy()  # 假设 224/16=14
        attn_map = np.resize(attn_map, (h, w))
        plt.imshow(image.squeeze(0), cmap='gray')
        plt.imshow(attn_map, cmap='jet', alpha=0.5)
        plt.title('ViT 注意力热图')
        plt.show()

# 推理与评估
predictions, true_labels = [], []
with torch.no_grad():
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        outputs = model(**inputs).logits
        preds = torch.argmax(outputs, dim=1)
        predictions.extend(preds.cpu().numpy())
        true_labels.extend(labels.cpu().numpy())
print("ViT 准确率:", accuracy_score(true_labels, predictions))

# 可视化示例
sample_image = dataset_2d[0]['image']
visualize_attention(model, sample_image, processor)

from transformers import ViTModel, BertTokenizer, BertModel
import torch.nn as nn

# 多模态模型
class MultiModalLungNoduleClassifier(nn.Module):
    def __init__(self, num_labels=2):
        super().__init__()
        self.vit = ViTModel.from_pretrained('google/vit-base-patch16-224')
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.fusion = nn.Linear(768+768, 512)
        self.classifier = nn.Linear(512, num_labels)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(0.1)

    def forward(self, image_inputs, text_inputs):
        vit_outputs = self.vit(**image_inputs).pooler_output  # [batch, 768]
        bert_outputs = self.bert(**text_inputs).pooler_output  # [batch, 768]
        combined = torch.cat((vit_outputs, bert_outputs), dim=-1)
        combined = self.relu(self.fusion(combined))
        combined = self.dropout(combined)
        logits = self.classifier(combined)
        return logits

# 数据集（扩展支持文本）
class LUNA16MultiModalDataset(Dataset):
    def __init__(self, dicom_dir, annotations_file, texts, transform=None):
        self.dataset = LUNA16Dataset(dicom_dir, annotations_file, mode='2d', transform=transform)
        self.texts = texts
        self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

    def __getitem__(self, idx):
        item = self.dataset[idx]
        text = self.texts[idx]
        text_inputs = self.tokenizer(text, max_length=128, padding='max_length', truncation=True, return_tensors='pt')
        item['text_inputs'] = {k: v.squeeze(0) for k, v in text_inputs.items()}
        return item

    def __len__(self):
        return len(self.dataset)

# 数据准备（模拟临床文本）
texts = ["Patient with cough and fever, suspected malignancy."] * len(dataset_2d)
multimodal_dataset = LUNA16MultiModalDataset('path/to/luna16', 'annotations.csv', texts, transform=transform_2d)
dataloader = DataLoader(multimodal_dataset, batch_size=16, shuffle=True)

# 训练
model = MultiModalLungNoduleClassifier(num_labels=2).to(device)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device))
optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)

for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        image_inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        text_inputs = {k: v.to(device) for k, v in batch['text_inputs'].items()}
        outputs = model(image_inputs, text_inputs)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f'Epoch [{epoch+1}/10], Loss: {running_loss/len(dataloader):.4f}')

from monai.networks.nets import UNETR
from monai.data import DataLoader, Dataset as MonaiDataset
from monai.transforms import LoadImageD, EnsureChannelFirstD, Compose

# 分割数据集
transform_seg = Compose([
    LoadImageD(keys=['image']),
    EnsureChannelFirstD(keys=['image']),
    Resize(spatial_size=(32, 32, 32)),
    ToTensor()
])

# 假设分割标注（mask）
seg_data = [{'image': f'path/to/luna16/{i}.dcm', 'mask': f'path/to/mask/{i}.nii'} for i in range(100)]
seg_dataset = MonaiDataset(seg_data, transform=transform_seg)
seg_dataloader = DataLoader(seg_dataset, batch_size=4, shuffle=True)

# UNETR 模型
model = UNETR(in_channels=1, out_channels=2, img_size=(32, 32, 32), feature_size=16).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# 训练
for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in seg_dataloader:
        images = batch['image'].to(device)
        masks = batch['mask'].to(device)
        outputs = model(images)
        loss = criterion(outputs, masks)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f'Epoch [{epoch+1}/10], Loss: {running_loss/len(seg_dataloader):.4f}')

from sklearn.metrics import confusion_matrix, roc_curve, auc, classification_report
from monai.metrics import DiceMetric
import seaborn as sns
import matplotlib.pyplot as plt

# 分类评估
def evaluate_classification(model, dataloader, processor=None, device='cuda'):
    model.eval()
    predictions, true_labels, probs = [], [], []
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            if processor:
                # ViT
                inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
                outputs = model(**inputs).logits
            else:
                # CNN
                outputs = model(images)
            preds = torch.argmax(outputs, dim=1)
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
            probs.extend(torch.softmax(outputs, dim=1)[:, 1].cpu().numpy())
    
    # 混淆矩阵
    cm = confusion_matrix(true_labels, predictions)
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['良性', '恶性'], yticklabels=['良性', '恶性'])
    plt.xlabel('预测')
    plt.ylabel('真实')
    plt.title('混淆矩阵')
    plt.show()
    
    # 分类报告
    print(classification_report(true_labels, predictions, target_names=['良性', '恶性']))
    
    # ROC 曲线
    fpr, tpr, _ = roc_curve(true_labels, probs)
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, label=f'ROC 曲线 (AUC = {roc_auc:.2f})')
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlabel('假阳性率')
    plt.ylabel('真阳性率')
    plt.title('ROC 曲线')
    plt.legend()
    plt.show()

# 分割评估
def evaluate_segmentation(model, dataloader, device='cuda'):
    dice_metric = DiceMetric(include_background=False, reduction='mean')
    model.eval()
    dice_scores = []
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            masks = batch['mask'].to(device)
            outputs = model(images)
            preds = torch.argmax(outputs, dim=1, keepdim=True)
            dice_metric(preds, masks)
            dice_score = dice_metric.aggregate().item()
            dice_scores.append(dice_score)
        dice_metric.reset()
    print(f"Dice 分数：{dice_score:.4f}")

# 评估示例
evaluate_classification(model_2d, dataloader_2d)  # 2D ResNet
evaluate_classification(model, dataloader, processor)  # ViT
evaluate_segmentation(model, seg_dataloader)  # UNETR

graph TD
    A[输入数据] --> B{预处理模式}
    B -->|2D| C[2D 预处理]
    B -->|3D| D[3D 预处理]
    C --> E[模型选择]
    D --> E
    E --> F{模型类型}
    F -->|CNN| G[ResNet]
    F -->|ViT| H[ViT]
    F -->|多模态| I[ViT+BERT]
    G --> J[训练]
    H --> J
    I --> J
    J --> K[评估]
    K --> L{收敛？}
    L -->|否| M[优化参数]
    M --> J
    L -->|是| N[输出结果]

{
  "type": "line",
  "data": {
    "labels": ["2 折", "3 折", "5 折", "10 折"],
    "datasets": [
      {
        "label": "ResNet 召回率",
        "data": [0.88, 0.90, 0.91, 0.90],
        "borderColor": "#FF6384",
        "fill": false
      },
      {
        "label": "ViT 召回率",
        "data": [0.90, 0.92, 0.93, 0.92],
        "borderColor": "#36A2EB",
        "fill": false
      }
    ]
  },
  "options": {
    "title": {
      "display": true,
      "text": "CNN 与 ViT 召回率对比（肺结节分类）"
    },
    "scales": {
      "xAxes": [{
        "scaleLabel": {
          "display": true,
          "labelString": "交叉验证折数"
        }
      }],
      "yAxes": [{
        "scaleLabel": {
          "display": true,
          "labelString": "召回率"
        },
        "ticks": {
          "min": 0.8,
          "max": 1.0
        }
      }]
    }
  }
}

{
  "type": "bar",
  "data": {
    "labels": ["2D ResNet-50", "3D ResNet-50", "ViT", "多模态"],
    "datasets": [
      {
        "label": "召回率",
        "data": [0.88, 0.90, 0.92, 0.94],
        "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderWidth": 1
      },
      {
        "label": "精确率",
        "data": [0.85, 0.87, 0.89, 0.91],
        "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderWidth": 1
      }
    ]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true,
        "title": {
          "display": true,
          "text": "性能指标"
        }
      },
      "x": {
        "title": {
          "display": true,
          "text": "模型"
        }
      }
    },
    "plugins": {
      "title": {
        "display": true,
        "text": "模型性能对比（肺结节分类）"
      }
    }
  }
}

{
  "type": "bar",
  "data": {
    "labels": ["2D ResNet-50", "3D ResNet-50", "ViT", "多模态", "UNETR"],
    "datasets": [{
      "label": "训练时间（小时）",
      "data": [2.0, 5.0, 3.0, 6.0, 8.0],
      "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0", "#9966FF"],
      "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0", "#9966FF"],
      "borderWidth": 1
    }]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true,
        "title": {
          "display": true,
          "text": "训练时间（小时）"
        }
      },
      "x": {
        "title": {
          "display": true,
          "text": "模型"
        }
      }
    },
    "plugins": {
      "title": {
        "display": true,
        "text": "模型训练时间对比"
      }
    }
  }
}

import shap
explainer = shap.DeepExplainer(model_2d, background_data)
shap_values = explainer.shap_values(dataset_2d[0]['image'].unsqueeze(0).to(device))
shap.image_plot(shap_values, dataset_2d[0]['image'].numpy())

import flwr as fl
strategy = fl.federated_averaging.FedAvg()
fl.server.start_server(config=fl.server.ServerConfig(num_rounds=3))

from torchcam.methods import GradCAM
cam = GradCAM(model_2d.resnet, target_layer='layer4')
heatmap = cam(dataset_2d[0]['image'].unsqueeze(0).to(device))
plt.imshow(heatmap[0], cmap='jet', alpha=0.5)
plt.title('ResNet Grad-CAM 热图')
plt.show()

from monai.data import CacheDataset
data = [{'image': f'brats/{i}.nii', 'mask': f'brats/mask/{i}.nii'} for i in range(100)]
dataset = CacheDataset(data, transform=transform_seg)

df = pd.read_csv('rsna/train.csv')
images = df['image_path'].tolist()
labels = df['label'].tolist()
dataset = LUNA16Dataset('path/to/rsna', 'rsna_annotations.csv', mode='2d', transform=transform_2d)

pip install torch torchvision transformers peft monai pydicom albumentations scikit-learn seaborn matplotlib flower

AI 大模型实践：医学影像肺结节分类器

AI 大模型实践项目：医学影像分类器（肺结节检测）

一、项目概述

1.1 项目目标

1.2 数据集

1.3 技术栈

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 医学影像分类挑战

二、理论基础

2.1 卷积神经网络（CNN）

2.2 Vision Transformer (ViT)

2.3 多模态模型（受 Med-PaLM 启发）

2.4 迁移学习与 LoRA

2.5 评估指标

三、数据预处理

3.1 LUNA16 数据集处理

3.2 实现示例（Python）

四、模型实现

4.1 CNN 实现（ResNet-50，3D 支持）

4.2 ViT 实现（Hugging Face，LoRA）

4.3 多模态实现（受 Med-PaLM 启发）

4.4 分割任务（3D U-Net+ViT）

五、评估与优化

5.1 评估方法

5.2 实现示例（Python）

5.3 优化策略

六、工作流与可视化

6.1 优化工作流流程图

进一步优化建议

6.2 图表：CNN 与 ViT 性能对比

6.3 图表：模型性能对比

6.4 图表：训练时间对比

七、应用与展望

7.1 应用

7.2 展望

八、扩展功能实现

8.1 SHAP/LIME 可解释性

8.2 联邦学习

8.3 Grad-CAM 可视化

8.4 其他数据集支持

九、运行说明

十、结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具