医学影像分类器实践：基于深度学习的肺结节检测

AI 大模型实践项目：医学影像分类器（肺结节检测）

本项目利用深度学习技术开发肺结节检测分类器，基于 CT 影像区分良性和恶性结节，聚焦 卷积神经网络（CNN）、视觉变换器（Vision Transformer, ViT） 以及受 Med-PaLM 启发的多模态方法。使用 LUNA16 数据集，整合 Transformer 原理（自注意力、位置编码），增强代码支持 3D 处理和分割任务，新增高级可视化和隐私保护技术（如联邦学习）。

医学影像分类器示意图

一、项目概述

1.1 项目目标

功能：构建分类器，检测 CT 影像中的肺结节（良性/恶性）。
医学意义：肺结节是肺癌早期标志，自动分类可辅助诊断，降低漏诊率。
技术目标：
- 掌握深度学习工作流：数据预处理、模型训练、评估。
- 实现高召回率（Recall），减少假阴性（漏诊）。
- 比较 CNN、ViT 和多模态模型在医学影像中的性能。
- 提供可解释性（如 Grad-CAM），增强医生信任。

1.2 数据集

LUNA16（Lung Nodule Analysis 2016）：
- 包含 888 个 CT 扫描，标注肺结节位置和类别（良性/恶性）。
- 格式：DICOM（医学影像标准格式），3D 影像（512×512×N 片）。
- 下载：https://luna16.grand-challenge.org/
RSNA（Radiological Society of North America）：
- 提供胸部 CTA 影像，适合验证模型泛化性。
- 下载：https://www.rsna.org/
数据挑战：
- 类不平衡：恶性结节样本少（约 10-20%）。
- 高维数据：3D CT 需降维或分块处理。
- 噪声与伪影：CT 影像可能包含扫描噪声或金属伪影。
- 隐私保护：需符合《个人信息保护法》和 HIPAA/GDPR。

1.3 技术栈

PyTorch：灵活实现 CNN、ViT 和 3D 模型。
Hugging Face：提供预训练 ViT 和多模态模型支持。
pydicom：读取和处理 DICOM 格式 CT 影像。
MONAI：医学影像专用框架，支持 3D 数据处理和分割。
scikit-learn/seaborn：评估指标（混淆矩阵、ROC 曲线）和可视化。
Chart.js：性能对比图表。
Flower：联邦学习框架，支持隐私保护训练。

import pydicom import numpy as np import pandas as pd import os from torch.utils.data import Dataset import albumentations as A from albumentations.pytorch import ToTensorV2 from monai.transforms import Compose, Resize, RandRotate, RandFlip, ToTensor # 自定义数据集 class LUNA16Dataset(Dataset): def __init__(self, dicom_dir, annotations_file, mode='2d', transform=None): """ LUNA16 数据集 :param dicom_dir: DICOM 文件目录 :param annotations_file: 标注 CSV 文件 :param mode: '2d' 或 '3d'（切片或体视显微镜） :param transform: 数据增强 """ self.dicom_dir = dicom_dir self.annotations = pd.read_csv(annotations_file) self.mode = mode self.transform = transform def __len__(self): return len(self.annotations) def __getitem__(self, idx): # 读取 DICOM dicom_id = self.annotations.iloc[idx]['dicom_id'] dicom_path = os.path.join(self.dicom_dir, dicom_id) ds = pydicom.dcmread(dicom_path) image = ds.pixel_array.astype(np.float32) # [H, W] 或 [D, H, W] # 归一化 image = (image - np.min(image)) / (np.max(image) - np.min(image) + 1e-6) # 提取结节区域 if self.mode == '2d': x, y, w, h, z = self.annotations.iloc[idx][['x','y','width','height','z']].values image = image[z, y:y+h, x:x+w] # 2D 切片 else: # 3d x, y, z, w, h, d = self.annotations.iloc[idx][['x','y','z','width','height','depth']].values image = image[z:z+d, y:y+h, x:x+w] # 3D 体视显微镜块 # 数据增强 if self.transform: if self.mode == '2d': augmented = self.transform(image=image) image = augmented['image'] else: image = self.transform(image[np.newaxis,...])[0] # 添加通道维度 label = self.annotations.iloc[idx]['label'] # 0: 良性，1: 恶性 return {'image': image, 'label': torch.tensor(label, dtype=torch.long)} # 数据增强 transform_2d = A.Compose([ A.Resize(224, 224), A.Rotate(limit=30, p=0.5), A.HorizontalFlip(p=0.5), A.RandomBrightnessContrast(p=0.3), A.Normalize(mean=[0.5], std=[0.5]), ToTensorV2() ]) transform_3d = Compose([ Resize(spatial_size=(32, 32, 32)), RandRotate(range_x=30, prob=0.5), RandFlip(spatial_axis=0, prob=0.5), ToTensor() ]) # 加载数据集 dataset_2d = LUNA16Dataset( dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='2d', transform=transform_2d ) dataset_3d = LUNA16Dataset( dicom_dir='path/to/luna16', annotations_file='annotations.csv', mode='3d', transform=transform_3d )

import torch import torch.nn as nn from torchvision.models import resnet50 from monai.networks.nets import ResNet from torch.utils.data import DataLoader from sklearn.metrics import accuracy_score, confusion_matrix # 3D ResNet-50 class ResNet3D(nn.Module): def __init__(self, num_classes=2): super().__init__() self.resnet = ResNet(block='bottleneck', layers=[3,4,6,3], spatial_dims=3, n_input_channels=1, num_classes=num_classes) def forward(self, x): return self.resnet(x) # 2D ResNet-50 class ResNet2D(nn.Module): def __init__(self, num_classes=2): super().__init__() self.resnet = resnet50(pretrained=True) self.resnet.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3) self.resnet.fc = nn.Linear(self.resnet.fc.in_features, num_classes) def forward(self, x): return self.resnet(x) # 训练函数 def train_model(model, dataloader, criterion, optimizer, num_epochs=10, device='cuda'): model = model.to(device) train_losses = [] for epoch in range(num_epochs): model.train() running_loss = 0.0 for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) optimizer.zero_grad() outputs = model(images) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() avg_loss = running_loss / len(dataloader) train_losses.append(avg_loss) print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}') return train_losses # 数据加载器 dataloader_2d = DataLoader(dataset_2d, batch_size=16, shuffle=True) dataloader_3d = DataLoader(dataset_3d, batch_size=8, shuffle=True) # 初始化模型 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model_2d = ResNet2D(num_classes=2) model_3d = ResNet3D(num_classes=2) criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device)) # 处理类不平衡 optimizer_2d = torch.optim.Adam(model_2d.parameters(), lr=1e-4, weight_decay=1e-5) optimizer_3d = torch.optim.Adam(model_3d.parameters(), lr=1e-4, weight_decay=1e-5) # 训练 train_losses_2d = train_model(model_2d, dataloader_2d, criterion, optimizer_2d, device=device) train_losses_3d = train_model(model_3d, dataloader_3d, criterion, optimizer_3d, device=device) # 推理 def evaluate_model(model, dataloader, device='cuda'): model.eval() predictions, true_labels = [], [] with torch.no_grad(): for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) outputs = model(images) preds = torch.argmax(outputs, dim=1) predictions.extend(preds.cpu().numpy()) true_labels.extend(labels.cpu().numpy()) return predictions, true_labels predictions_2d, true_labels_2d = evaluate_model(model_2d, dataloader_2d) predictions_3d, true_labels_3d = evaluate_model(model_3d, dataloader_3d) print("2D ResNet 准确率:", accuracy_score(true_labels_2d, predictions_2d)) print("3D ResNet 准确率:", accuracy_score(true_labels_3d, predictions_3d))

from transformers import ViTImageProcessor, ViTForImageClassification from peft import LoraConfig, get_peft_model from torch.utils.data import DataLoader import torch import matplotlib.pyplot as plt # 加载 ViT processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224') model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224', num_labels=2) # LoRA 微调 lora_config = LoraConfig(r=8, lora_alpha=16, target_modules=["query", "value"]) model = get_peft_model(model, lora_config) # 训练设置 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = model.to(device) criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device)) optimizer = torch.optim.Adam(model.parameters(), lr=2e-5) # 训练 dataloader = DataLoader(dataset_2d, batch_size=16, shuffle=True) train_losses = [] for epoch in range(10): model.train() running_loss = 0.0 for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) inputs = processor(images, return_tensors='pt', do_rescale=False).to(device) outputs = model(**inputs).logits loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() avg_loss = running_loss / len(dataloader) train_losses.append(avg_loss) print(f'Epoch [{epoch+1}/10], Loss: {avg_loss:.4f}') # 注意力可视化 def visualize_attention(model, image, processor, device='cuda'): model.eval() inputs = processor(image, return_tensors='pt', do_rescale=False).to(device) with torch.no_grad(): outputs = model(**inputs, output_attentions=True) attentions = outputs.attentions[-1].mean(dim=1).squeeze(0) # 最后一层注意力 # 将注意力映射到原始图像 h, w = image.shape[-2:] attn_map = attentions.mean(dim=0).reshape(14, 14).cpu().numpy() # 假设 224/16=14 attn_map = np.resize(attn_map, (h, w)) plt.imshow(image.squeeze(0), cmap='gray') plt.imshow(attn_map, cmap='jet', alpha=0.5) plt.title('ViT 注意力热图') plt.show() # 推理与评估 predictions, true_labels = [], [] with torch.no_grad(): for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) inputs = processor(images, return_tensors='pt', do_rescale=False).to(device) outputs = model(**inputs).logits preds = torch.argmax(outputs, dim=1) predictions.extend(preds.cpu().numpy()) true_labels.extend(labels.cpu().numpy()) print("ViT 准确率:", accuracy_score(true_labels, predictions)) # 可视化示例 sample_image = dataset_2d[0]['image'] visualize_attention(model, sample_image, processor)

from transformers import ViTModel, BertTokenizer, BertModel import torch.nn as nn # 多模态模型 class MultiModalLungNoduleClassifier(nn.Module): def __init__(self, num_labels=2): super().__init__() self.vit = ViTModel.from_pretrained('google/vit-base-patch16-224') self.bert = BertModel.from_pretrained('bert-base-uncased') self.fusion = nn.Linear(768+768, 512) self.classifier = nn.Linear(512, num_labels) self.relu = nn.ReLU() self.dropout = nn.Dropout(0.1) def forward(self, image_inputs, text_inputs): vit_outputs = self.vit(**image_inputs).pooler_output # [batch, 768] bert_outputs = self.bert(**text_inputs).pooler_output # [batch, 768] combined = torch.cat((vit_outputs, bert_outputs), dim=-1) combined = self.relu(self.fusion(combined)) combined = self.dropout(combined) logits = self.classifier(combined) return logits # 数据集（扩展支持文本） class LUNA16MultiModalDataset(Dataset): def __init__(self, dicom_dir, annotations_file, texts, transform=None): self.dataset = LUNA16Dataset(dicom_dir, annotations_file, mode='2d', transform=transform) self.texts = texts self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') def __getitem__(self, idx): item = self.dataset[idx] text = self.texts[idx] text_inputs = self.tokenizer(text, max_length=128, padding='max_length', truncation=True, return_tensors='pt') item['text_inputs'] = {k: v.squeeze(0) for k, v in text_inputs.items()} return item def __len__(self): return len(self.dataset) # 数据准备（模拟临床文本） texts = ["Patient with cough and fever, suspected malignancy."] * len(dataset_2d) multimodal_dataset = LUNA16MultiModalDataset('path/to/luna16', 'annotations.csv', texts, transform=transform_2d) dataloader = DataLoader(multimodal_dataset, batch_size=16, shuffle=True) # 训练 model = MultiModalLungNoduleClassifier(num_labels=2).to(device) criterion = nn.CrossEntropyLoss(weight=torch.tensor([0.3, 0.7]).to(device)) optimizer = torch.optim.Adam(model.parameters(), lr=2e-5) for epoch in range(10): model.train() running_loss = 0.0 for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) image_inputs = processor(images, return_tensors='pt', do_rescale=False).to(device) text_inputs = {k: v.to(device) for k, v in batch['text_inputs'].items()} outputs = model(image_inputs, text_inputs) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() print(f'Epoch [{epoch+1}/10], Loss: {running_loss/len(dataloader):.4f}')

from sklearn.metrics import confusion_matrix, roc_curve, auc, classification_report from monai.metrics import DiceMetric import seaborn as sns import matplotlib.pyplot as plt # 分类评估 def evaluate_classification(model, dataloader, processor=None, device='cuda'): model.eval() predictions, true_labels, probs = [], [], [] with torch.no_grad(): for batch in dataloader: images = batch['image'].to(device) labels = batch['label'].to(device) if processor: # ViT inputs = processor(images, return_tensors='pt', do_rescale=False).to(device) outputs = model(**inputs).logits else: # CNN outputs = model(images) preds = torch.argmax(outputs, dim=1) predictions.extend(preds.cpu().numpy()) true_labels.extend(labels.cpu().numpy()) probs.extend(torch.softmax(outputs, dim=1)[:, 1].cpu().numpy()) # 混淆矩阵 cm = confusion_matrix(true_labels, predictions) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['良性', '恶性'], yticklabels=['良性', '恶性']) plt.xlabel('预测') plt.ylabel('真实') plt.title('混淆矩阵') plt.show() # 分类报告 print(classification_report(true_labels, predictions, target_names=['良性', '恶性'])) # ROC 曲线 fpr, tpr, _ = roc_curve(true_labels, probs) roc_auc = auc(fpr, tpr) plt.plot(fpr, tpr, label=f'ROC 曲线 (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], 'k--') plt.xlabel('假阳性率') plt.ylabel('真阳性率') plt.title('ROC 曲线') plt.legend() plt.show() # 分割评估 def evaluate_segmentation(model, dataloader, device='cuda'): dice_metric = DiceMetric(include_background=False, reduction='mean') model.eval() dice_scores = [] with torch.no_grad(): for batch in dataloader: images = batch['image'].to(device) masks = batch['mask'].to(device) outputs = model(images) preds = torch.argmax(outputs, dim=1, keepdim=True) dice_metric(preds, masks) dice_score = dice_metric.aggregate().item() dice_scores.append(dice_score) dice_metric.reset() print(f"Dice 分数：{dice_score:.4f}") # 评估示例 evaluate_classification(model_2d, dataloader_2d) # 2D ResNet evaluate_classification(model, dataloader, processor) # ViT evaluate_segmentation(model, seg_dataloader) # UNETR

医学影像分类器实践：基于深度学习的肺结节检测

AI 大模型实践项目：医学影像分类器（肺结节检测）

一、项目概述

1.1 项目目标

1.2 数据集

1.3 技术栈

更多推荐文章

相关免费在线工具

1.4 医学影像分类挑战

二、理论基础

2.1 卷积神经网络（CNN）

2.2 Vision Transformer (ViT)

2.3 多模态模型（受 Med-PaLM 启发）

2.4 迁移学习与 LoRA

2.5 评估指标

三、数据预处理

3.1 LUNA16 数据集处理

3.2 实现示例（Python）

四、模型实现

4.1 CNN 实现（ResNet-50，3D 支持）

4.2 ViT 实现（Hugging Face，LoRA）

4.3 多模态实现（受 Med-PaLM 启发）

4.4 分割任务（3D U-Net+ViT）

五、评估与优化

5.1 评估方法

5.2 实现示例（Python）

5.3 优化策略

六、工作流与可视化

6.1 优化工作流流程图

6.2 图表：CNN 与 ViT 性能对比

6.3 图表：模型性能对比

6.4 图表：训练时间对比

七、应用与展望

7.1 应用

7.2 展望

八、环境准备

更多推荐文章

相关免费在线工具

医学影像分类器实践：基于深度学习的肺结节检测

AI 大模型实践项目：医学影像分类器（肺结节检测）

一、项目概述

1.1 项目目标

1.2 数据集

1.3 技术栈

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 医学影像分类挑战

二、理论基础

2.1 卷积神经网络（CNN）

2.2 Vision Transformer (ViT)

2.3 多模态模型（受 Med-PaLM 启发）

2.4 迁移学习与 LoRA

2.5 评估指标

三、数据预处理

3.1 LUNA16 数据集处理

3.2 实现示例（Python）

四、模型实现

4.1 CNN 实现（ResNet-50，3D 支持）

4.2 ViT 实现（Hugging Face，LoRA）

4.3 多模态实现（受 Med-PaLM 启发）

4.4 分割任务（3D U-Net+ViT）

五、评估与优化

5.1 评估方法

5.2 实现示例（Python）

5.3 优化策略

六、工作流与可视化

6.1 优化工作流流程图

6.2 图表：CNN 与 ViT 性能对比

6.3 图表：模型性能对比

6.4 图表：训练时间对比

七、应用与展望

7.1 应用

7.2 展望

八、环境准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具