医学影像分类器：基于深度学习的肺结节检测

医学影像分类器：基于深度学习的肺结节检测 | 极客日志

import pydicom
import numpy as np
import pandas as pd
import os
from torch.utils.data import Dataset
import albumentations as A
from albumentations.pytorch import ToTensorV2
from monai.transforms import Compose, Resize, RandRotate, RandFlip, ToTensor

# 自定义数据集
class LUNA16Dataset(Dataset):
    def __init__(self, dicom_dir, annotations_file, mode='2d', transform=None):
        """
        LUNA16 数据集
        :param dicom_dir: DICOM 文件目录
        :param annotations_file: 标注 CSV 文件
        :param mode: '2d' 或 '3d'（切片或体视显微镜）
        :param transform: 数据增强
        """
        self.dicom_dir = dicom_dir
        self.annotations = pd.read_csv(annotations_file)
        self.mode = mode
        self.transform = transform

    def __len__(self):
        return len(self.annotations)

    def __getitem__(self, idx):
        # 读取 DICOM
        dicom_id = self.annotations.iloc[idx]['dicom_id']
        dicom_path = os.path.join(self.dicom_dir, dicom_id)
        ds = pydicom.dcmread(dicom_path)
        image = ds.pixel_array.astype(np.float32)
        # [H, W] 或 [D, H, W]
        # 归一化
        image = (image - np.min(image)) / (np.max(image) - np.min(image) + 1e-6)
        # 提取结节区域
        if self.mode == '2d':
            x, y, w, h, z = self.annotations.iloc[idx][['x','y','width','height','z']].values
            image = image[z, y:y+h, x:x+w]
            # 2D 切片
        else:
            # 3d
            x, y, z, w, h, d = self.annotations.iloc[idx][['x','y','z','width','height','depth']].values
            image = image[z:z+d, y:y+h, x:x+w]
            # 3D 体视显微镜块
        # 数据增强
        if self.transform:
            if self.mode == '2d':
                augmented = self.transform(image=image)
                image = augmented['image']
            else:
                image = self.transform(image[np.newaxis,...])[0]
                # 添加通道维度
        label = self.annotations.iloc[idx]['label']
        # 0: 良性，1: 恶性
        return {'image': image,
                'label': torch.tensor(label, dtype=torch.long)}

# 数据增强
transform_2d = A.Compose([
    A.Resize(224,224),
    A.Rotate(limit=30, p=0.5),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.3),
    A.Normalize(mean=[0.5], std=[0.5]),
    ToTensorV2()
])

transform_3d = Compose([
    Resize(spatial_size=(32,32,32)),
    RandRotate(range_x=30, prob=0.5),
    RandFlip(spatial_axis=0, prob=0.5),
    ToTensor()
])

# 加载数据集
dataset_2d = LUNA16Dataset(dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='2d', transform=transform_2d)
dataset_3d = LUNA16Dataset(dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='3d', transform=transform_3d)

import torch
import torch.nn as nn
from torchvision.models import resnet50
from monai.networks.nets import ResNet
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score, confusion_matrix

# 3D ResNet-50
class ResNet3D(nn.Module):
    def __init__(self, num_classes=2):
        super().__init__()
        self.resnet = ResNet(block='bottleneck', layers=[3,4,6,3], spatial_dims=3, n_input_channels=1, num_classes=num_classes)

    def forward(self, x):
        return self.resnet(x)

# 2D ResNet-50
class ResNet2D(nn.Module):
    def __init__(self, num_classes=2):
        super().__init__()
        self.resnet = resnet50(pretrained=True)
        self.resnet.conv1 = nn.Conv2d(1,64, kernel_size=7, stride=2, padding=3)
        self.resnet.fc = nn.Linear(self.resnet.fc.in_features, num_classes)

    def forward(self, x):
        return self.resnet(x)

# 训练函数
def train_model(model, dataloader, criterion, optimizer, num_epochs=10, device='cuda'):
    model = model.to(device)
    train_losses = []
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        avg_loss = running_loss / len(dataloader)
        train_losses.append(avg_loss)
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}')
    return train_losses

# 数据加载器
dataloader_2d = DataLoader(dataset_2d, batch_size=16, shuffle=True)
dataloader_3d = DataLoader(dataset_3d, batch_size=8, shuffle=True)

# 初始化模型
device = torch.device('cuda'if torch.cuda.is_available()else'cpu')
model_2d = ResNet2D(num_classes=2)
model_3d = ResNet3D(num_classes=2)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3,0.7]).to(device))

# 处理类不平衡
optimizer_2d = torch.optim.Adam(model_2d.parameters(), lr=1e-4, weight_decay=1e-5)
optimizer_3d = torch.optim.Adam(model_3d.parameters(), lr=1e-4, weight_decay=1e-5)

# 训练
train_losses_2d = train_model(model_2d, dataloader_2d, criterion, optimizer_2d, device=device)
train_losses_3d = train_model(model_3d, dataloader_3d, criterion, optimizer_3d, device=device)

# 推理
def evaluate_model(model, dataloader, device='cuda'):
    model.eval()
    predictions, true_labels = [],[]
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            outputs = model(images)
            preds = torch.argmax(outputs, dim=1)
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
    return predictions, true_labels

predictions_2d, true_labels_2d = evaluate_model(model_2d, dataloader_2d)
predictions_3d, true_labels_3d = evaluate_model(model_3d, dataloader_3d)
print("2D ResNet 准确率:", accuracy_score(true_labels_2d, predictions_2d))
print("3D ResNet 准确率:", accuracy_score(true_labels_3d, predictions_3d))

from transformers import ViTImageProcessor, ViTForImageClassification
from peft import LoraConfig, get_peft_model
from torch.utils.data import DataLoader
import torch
import matplotlib.pyplot as plt

# 加载 ViT
processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224', num_labels=2)

# LoRA 微调
lora_config = LoraConfig(r=8, lora_alpha=16, target_modules=["query","value"])
model = get_peft_model(model, lora_config)

# 训练设置
device = torch.device('cuda'if torch.cuda.is_available()else'cpu')
model = model.to(device)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3,0.7]).to(device))
optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)

# 训练
dataloader = DataLoader(dataset_2d, batch_size=16, shuffle=True)
train_losses = []
for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        outputs = model(**inputs).logits
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    avg_loss = running_loss / len(dataloader)
    train_losses.append(avg_loss)
    print(f'Epoch [{epoch+1}/10], Loss: {avg_loss:.4f}')

# 注意力可视化
def visualize_attention(model, image, processor, device='cuda'):
    model.eval()
    inputs = processor(image, return_tensors='pt', do_rescale=False).to(device)
    with torch.no_grad():
        outputs = model(**inputs, output_attentions=True)
        attentions = outputs.attentions[-1].mean(dim=1).squeeze(0)
        # 最后一层注意力
        # 将注意力映射到原始图像
        h, w = image.shape[-2:]
        attn_map = attentions.mean(dim=0).reshape(14,14).cpu().numpy()
        # 假设 224/16=14
        attn_map = np.resize(attn_map,(h, w))
        plt.imshow(image.squeeze(0), cmap='gray')
        plt.imshow(attn_map, cmap='jet', alpha=0.5)
        plt.title('ViT 注意力热图')
        plt.show()

# 推理与评估
predictions, true_labels = [],[]
with torch.no_grad():
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        outputs = model(**inputs).logits
        preds = torch.argmax(outputs, dim=1)
        predictions.extend(preds.cpu().numpy())
        true_labels.extend(labels.cpu().numpy())
print("ViT 准确率:", accuracy_score(true_labels, predictions))

# 可视化示例
sample_image = dataset_2d[0]['image']
visualize_attention(model, sample_image, processor)

from transformers import ViTModel, BertTokenizer, BertModel
import torch.nn as nn

# 多模态模型
class MultiModalLungNoduleClassifier(nn.Module):
    def __init__(self, num_labels=2):
        super().__init__()
        self.vit = ViTModel.from_pretrained('google/vit-base-patch16-224')
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.fusion = nn.Linear(768+768,512)
        self.classifier = nn.Linear(512, num_labels)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(0.1)

    def forward(self, image_inputs, text_inputs):
        vit_outputs = self.vit(**image_inputs).pooler_output # [batch, 768]
        bert_outputs = self.bert(**text_inputs).pooler_output # [batch, 768]
        combined = torch.cat((vit_outputs, bert_outputs), dim=-1)
        combined = self.relu(self.fusion(combined))
        combined = self.dropout(combined)
        logits = self.classifier(combined)
        return logits

# 数据集（扩展支持文本）
class LUNA16MultiModalDataset(Dataset):
    def __init__(self, dicom_dir, annotations_file, texts, transform=None):
        self.dataset = LUNA16Dataset(dicom_dir, annotations_file, mode='2d', transform=transform)
        self.texts = texts
        self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

    def __getitem__(self, idx):
        item = self.dataset[idx]
        text = self.texts[idx]
        text_inputs = self.tokenizer(text, max_length=128, padding='max_length', truncation=True, return_tensors='pt')
        item['text_inputs']={k: v.squeeze(0)for k, v in text_inputs.items()}
        return item

    def __len__(self):
        return len(self.dataset)

# 数据准备（模拟临床文本）
texts = ["Patient with cough and fever, suspected malignancy."]*len(dataset_2d)
multimodal_dataset = LUNA16MultiModalDataset('path/to/luna16','annotations.csv', texts, transform=transform_2d)
dataloader = DataLoader(multimodal_dataset, batch_size=16, shuffle=True)

# 训练
model = MultiModalLungNoduleClassifier(num_labels=2).to(device)
criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3,0.7]).to(device))
optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)
for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in dataloader:
        images = batch['image'].to(device)
        labels = batch['label'].to(device)
        image_inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
        text_inputs ={k: v.to(device)for k, v in batch['text_inputs'].items()}
        outputs = model(image_inputs, text_inputs)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f'Epoch [{epoch+1}/10], Loss: {running_loss/len(dataloader):.4f}')

from monai.networks.nets import UNETR
from monai.data import DataLoader, Dataset as MonaiDataset
from monai.transforms import LoadImageD, EnsureChannelFirstD, Compose

# 分割数据集
transform_seg = Compose([
    LoadImageD(keys=['image']),
    EnsureChannelFirstD(keys=['image']),
    Resize(spatial_size=(32,32,32)),
    ToTensor()
])

# 假设分割标注（mask）
seg_data = [{'image':f'path/to/luna16/{i}.dcm','mask':f'path/to/mask/{i}.nii'}for i inrange(100)]
seg_dataset = MonaiDataset(seg_data, transform=transform_seg)
seg_dataloader = DataLoader(seg_dataset, batch_size=4, shuffle=True)

# UNETR 模型
model = UNETR(in_channels=1, out_channels=2, img_size=(32,32,32), feature_size=16).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# 训练
for epoch in range(10):
    model.train()
    running_loss = 0.0
    for batch in seg_dataloader:
        images = batch['image'].to(device)
        masks = batch['mask'].to(device)
        outputs = model(images)
        loss = criterion(outputs, masks)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f'Epoch [{epoch+1}/10], Loss: {running_loss/len(seg_dataloader):.4f}')

from sklearn.metrics import confusion_matrix, roc_curve, auc, classification_report
from monai.metrics import DiceMetric
import seaborn as sns
import matplotlib.pyplot as plt

# 分类评估
def evaluate_classification(model, dataloader, processor=None, device='cuda'):
    model.eval()
    predictions, true_labels, probs = [],[],[]
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            labels = batch['label'].to(device)
            if processor:
                # ViT
                inputs = processor(images, return_tensors='pt', do_rescale=False).to(device)
                outputs = model(**inputs).logits
            else:
                # CNN
                outputs = model(images)
            preds = torch.argmax(outputs, dim=1)
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
            probs.extend(torch.softmax(outputs, dim=1)[:,1].cpu().numpy())
    # 混淆矩阵
    cm = confusion_matrix(true_labels, predictions)
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['良性','恶性'], yticklabels=['良性','恶性'])
    plt.xlabel('预测')
    plt.ylabel('真实')
    plt.title('混淆矩阵')
    plt.show()
    # 分类报告
    print(classification_report(true_labels, predictions, target_names=['良性','恶性']))
    # ROC 曲线
    fpr, tpr, _ = roc_curve(true_labels, probs)
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, label=f'ROC 曲线 (AUC = {roc_auc:.2f})')
    plt.plot([0,1],[0,1],'k--')
    plt.xlabel('假阳性率')
    plt.ylabel('真阳性率')
    plt.title('ROC 曲线')
    plt.legend()
    plt.show()

# 分割评估
def evaluate_segmentation(model, dataloader, device='cuda'):
    dice_metric = DiceMetric(include_background=False, reduction='mean')
    model.eval()
    dice_scores = []
    with torch.no_grad():
        for batch in dataloader:
            images = batch['image'].to(device)
            masks = batch['mask'].to(device)
            outputs = model(images)
            preds = torch.argmax(outputs, dim=1, keepdim=True)
            dice_metric(preds, masks)
            dice_score = dice_metric.aggregate().item()
            dice_scores.append(dice_score)
        dice_metric.reset()
    print(f"Dice 分数：{dice_score:.4f}")

# 评估示例
evaluate_classification(model_2d, dataloader_2d) # 2D ResNet
evaluate_classification(model, dataloader, processor) # ViT
evaluate_segmentation(model, seg_dataloader) # UNETR

graph TD
    Model_Selection --> Preprocess_Seg
    Model_Selection --> Preprocess_3D
    Model_Selection --> Preprocess_2D
    Preprocess_2D --> 2D 分类
    Preprocess_3D --> 3D 分类
    Preprocess_Seg --> 分割
    2D 分类 --> CNN
    3D 分类 --> CNN
    2D 分类 --> ViT
    3D 分类 --> ViT
    分割 --> UNETR
    CNN --> 是否 ResNet50
    ViT --> 是否 ViT
    UNETR --> 是否 UNETR
    是否 ResNet50 --> 模型选择
    是否 ViT --> 模型选择
    是否 UNETR --> 模型选择
    模型选择 --> 预训练
    预训练 --> 微调
    微调 --> 训练
    训练 --> 优化
    优化 --> 是否收敛
    是否收敛 -->|是 | 评估
    是否收敛 -->|否 | 调整参数
    调整参数 --> 训练
    评估 --> 可解释性
    可解释性 --> 输出结果
    输入数据 --> 读取影像和掩膜
    读取影像和掩膜 --> 分割预处理
    分割预处理 --> 归一化
    归一化 --> 调整大小
    调整大小 --> 增强
    增强 --> 读取 DICOM
    读取 DICOM --> 3D 预处理
    3D 预处理 --> 归一化
    归一化 --> 提取 3D 体块
    提取 3D 体块 --> 3D 增强
    3D 增强 --> 读取 DICOM
    读取 DICOM --> 2D 预处理
    2D 预处理 --> 归一化
    归一化 --> 提取 2D 切片
    提取 2D 切片 --> 数据增强
    数据增强 --> 输入数据模式选择
    输入数据模式选择 --> 2D 分类
    输入数据模式选择 --> 3D 分类
    输入数据模式选择 --> 分割

{
  "type": "line",
  "data": {
    "labels": ["2 折", "3 折", "5 折", "10 折"],
    "datasets": [
      {
        "label": "ResNet 召回率",
        "data": [0.88, 0.90, 0.91, 0.90],
        "borderColor": "#FF6384",
        "fill": false
      },
      {
        "label": "ViT 召回率",
        "data": [0.90, 0.92, 0.93, 0.92],
        "borderColor": "#36A2EB",
        "fill": false
      }
    ]
  },
  "options": {
    "title": {
      "display": true,
      "text": "CNN 与 ViT 召回率对比（肺结节分类）"
    },
    "scales": {
      "xAxes": [{
        "scaleLabel": {
          "display": true,
          "labelString": "交叉验证折数"
        }
      }],
      "yAxes": [{
        "scaleLabel": {
          "display": true,
          "labelString": "召回率"
        },
        "ticks": {
          "min": 0.8,
          "max": 1.0
        }
      }]
    }
  }
}

{
  "type": "bar",
  "data": {
    "labels": ["2D ResNet-50", "3D ResNet-50", "ViT", "多模态"],
    "datasets": [
      {
        "label": "召回率",
        "data": [0.88, 0.90, 0.92, 0.94],
        "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderWidth": 1
      },
      {
        "label": "精确率",
        "data": [0.85, 0.87, 0.89, 0.91],
        "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0"],
        "borderWidth": 1
      }
    ]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true,
        "title": {
          "display": true,
          "text": "性能指标"
        }
      },
      "x": {
        "title": {
          "display": true,
          "text": "模型"
        }
      }
    },
    "plugins": {
      "title": {
        "display": true,
        "text": "模型性能对比（肺结节分类）"
      }
    }
  }
}

{
  "type": "bar",
  "data": {
    "labels": ["2D ResNet-50", "3D ResNet-50", "ViT", "多模态", "UNETR"],
    "datasets": [{
      "label": "训练时间（小时）",
      "data": [2.0, 5.0, 3.0, 6.0, 8.0],
      "backgroundColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0", "#9966FF"],
      "borderColor": ["#FF6384", "#36A2EB", "#FFCE56", "#4BC0C0", "#9966FF"],
      "borderWidth": 1
    }]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true,
        "title": {
          "display": true,
          "text": "训练时间（小时）"
        }
      },
      "x": {
        "title": {
          "display": true,
          "text": "模型"
        }
      }
    },
    "plugins": {
      "title": {
        "display": true,
        "text": "模型训练时间对比"
      }
    }
  }
}

pip install torch torchvision transformers peft monai pydicom albumentations scikit-learn seaborn matplotlib flower

医学影像分类器：基于深度学习的肺结节检测

AI 大模型实践项目：医学影像分类器（肺结节检测）

一、项目概述

1.1 项目目标

1.2 数据集

1.3 技术栈

更多推荐文章

相关免费在线工具

1.4 医学影像分类挑战

二、理论基础

2.1 卷积神经网络（CNN）

2.2 Vision Transformer (ViT)

2.3 多模态模型（受 Med-PaLM 启发）

2.4 迁移学习与 LoRA

2.5 评估指标

三、数据预处理

3.1 LUNA16 数据集处理

3.2 实现示例（Python）

四、模型实现

4.1 CNN 实现（ResNet-50，3D 支持）

4.2 ViT 实现（Hugging Face，LoRA）

4.3 多模态实现（受 Med-PaLM 启发）

4.4 分割任务（3D U-Net+ViT）

五、评估与优化

5.1 评估方法

5.2 实现示例（Python）

5.3 优化策略

六、工作流与可视化

6.1 优化工作流流程图

流程图说明

6.2 图表：CNN 与 ViT 性能对比

6.3 图表：模型性能对比

6.4 图表：训练时间对比

七、应用与展望

7.1 应用

7.2 展望

九、运行说明

十、结语

更多推荐文章

相关免费在线工具

医学影像分类器：基于深度学习的肺结节检测

AI 大模型实践项目：医学影像分类器（肺结节检测）

一、项目概述

1.1 项目目标

1.2 数据集

1.3 技术栈

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 医学影像分类挑战

二、理论基础

2.1 卷积神经网络（CNN）

2.2 Vision Transformer (ViT)

2.3 多模态模型（受 Med-PaLM 启发）

2.4 迁移学习与 LoRA

2.5 评估指标

三、数据预处理

3.1 LUNA16 数据集处理

3.2 实现示例（Python）

四、模型实现

4.1 CNN 实现（ResNet-50，3D 支持）

4.2 ViT 实现（Hugging Face，LoRA）

4.3 多模态实现（受 Med-PaLM 启发）

4.4 分割任务（3D U-Net+ViT）

五、评估与优化

5.1 评估方法

5.2 实现示例（Python）

5.3 优化策略

六、工作流与可视化

6.1 优化工作流流程图

流程图说明

6.2 图表：CNN 与 ViT 性能对比

6.3 图表：模型性能对比

6.4 图表：训练时间对比

七、应用与展望

7.1 应用

7.2 展望

九、运行说明

十、结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具