Python 常用医疗 AI 库及案例解析
医疗 AI 领域 Python 开发首选。涵盖数据科学、深度学习、大模型、可视化等模块库,如 Polars、PyTorch、LangChain。提供医学图像分析(MONAI)、电子病历探索(Pandas/Polars/PyGWalker)、药物发现(RDKit)实战案例,展示数据处理、模型训练及部署流程,助力医疗智能化项目落地。

医疗 AI 领域 Python 开发首选。涵盖数据科学、深度学习、大模型、可视化等模块库,如 Polars、PyTorch、LangChain。提供医学图像分析(MONAI)、电子病历探索(Pandas/Polars/PyGWalker)、药物发现(RDKit)实战案例,展示数据处理、模型训练及部署流程,助力医疗智能化项目落地。

| 库名 | 说明 |
|---|---|
| Polars | 高性能 DataFrame 库,性能远超 Pandas,支持多线程、懒执行。2025 年非常流行。 |
| scikit-learn 1.5+ | 经典 ML 库,持续更新中,新增更多模型评估工具和高阶调参接口。 |
| XGBoost / LightGBM / CatBoost | 树模型三大王者,依旧是 Kaggle 和工业界主力。 |
| skops | 用于将 scikit-learn 模型转换为可部署格式的库,2025 年较为热门。 |
| H2O Wave | 可快速构建 ML Web 应用的库,适合原型展示。 |
| 库名 | 说明 |
|---|---|
| PyTorch 2.2+ | 加入了更完整的 torch.compile 支持,大幅提升训练速度。 |
| Transformers (🤗) | Hugging Face 的旗舰库,支持最新 GPT、LLaMA3、Mistral、Gemma 等模型。 |
| Diffusers (🤗) | 文生图、图生图的标准库,2025 年继续火爆。 |
| Keras 3.x | 完全支持 PyTorch 和 JAX 后端,统一 API,变得更强大。 |
| FastAI 2.8+ | PyTorch 封装库,便捷构建深度学习模型,教学使用友好。 |
| 库名 | 说明 |
|---|---|
| LangChain | 构建 LLM 工作流的库,支持 OpenAI、Anthropic、Claude 等模型调用。 |
| LlamaIndex | 构建向量索引与检索增强生成(RAG)系统的核心库。 |
| Haystack | 来自 Deepset 的 RAG 框架,支持多种后端。2025 年持续更新。 |
| InstructorEmbedding | 微调 embedding 模型,效果比 OpenAI embeddings 更准。 |
| VLLM / TGI / LMDeploy | 高效部署大模型的库,在企业部署中非常关键。 |
| 库名 | 说明 |
|---|---|
| Plotly 5.x | 交互式图表,支持 Jupyter 和 Web,持续流行。 |
| Altair 5+ | 基于 Vega 的声明式可视化工具,支持 Pandas 和 Polars。 |
| PyGWalker | 类似 Tableau 的数据探索工具,2025 年新晋热门。 |
| Seaborn v0.13+ | 经典静态图工具,仍常用。 |
| 库名 | 说明 |
|---|---|
| FastAPI | 异步、类型注解友好的 API 框架,2025 年依旧最火。 |
| Litestar (前身为 Starlite) | FastAPI 替代者,架构更现代、性能更强。 |
| Reflex (前身为 Pynecone) | 用 Python 写前端和后端,生成完整 Web 应用,2025 年大热。 |
| NiceGUI | 用 Python 写交互式 GUI,基于 Vue + Tailwind,快速开发界面。 |
| 库名 | 说明 |
|---|---|
| Autogen (Microsoft) | 构建多智能体协作系统,支持代码写作、任务规划等。 |
| CrewAI | 用 LLM 构建多角色 AI 工作流系统,支持角色分工、任务追踪。 |
| LangGraph | 基于 LangChain 的图结构 LLM 流程管理库,适合构建复杂逻辑。 |
| 库名 | 说明 |
|---|---|
| Rich / Textual | 用于终端 UI 的现代化库,支持彩色日志、表格、进度条等。 |
| Pydantic v2 | 类型验证神器,性能提升巨大,广泛用于 FastAPI 和数据校验。 |
| Typer | 用于构建 CLI 工具的库,语法优美、支持类型注解。 |
| Uvicorn / Gunicorn / Hypercorn | 常用 Python Web 服务器,支持异步。 |
专为医学影像(CT/MRI)打造的 PyTorch 库。
安装命令:
pip install monai nibabel
下面是一个医学图像处理示例,结合了数据加载、预处理、3D UNet 模型构建和训练流程,使用 MONAI 库实现端到端的医学图像分割任务:
from monai.transforms import (
LoadImaged, AddChanneld, Spacingd, Orientationd,
ScaleIntensityRanged, RandCropByPosNegLabeld, Compose, EnsureTyped
)
from monai.networks.nets import UNet
from monai.losses import DiceLoss
from monai.metrics import DiceMetric
from monai.data import Dataset, DataLoader, decollate_batch
from monai.inferers import sliding_window_inference
import torch
import numpy as np
import matplotlib.pyplot as plt
# 1. 数据准备与预处理
data_dir = "./medical_images/"
train_files = [
{"image": data_dir + "patient1_CT.nii.gz", "label": data_dir + "patient1_mask.nii.gz"},
{"image": data_dir + "patient2_CT.nii.gz", "label": data_dir + "patient2_mask.nii.gz"},
# 添加更多数据...
]
# 医学图像预处理流程
train_transforms = Compose([
LoadImaged(keys=["image", "label"]),
AddChanneld(keys=["image", "label"]),
Spacingd(
keys=["image", "label"],
pixdim=(1.0, 1.0, 2.0), # 调整体素间距 (x,y,z)
mode=("bilinear", "nearest") # 图像用双线性插值,标签用最近邻
),
Orientationd(keys=["image", "label"], axcodes="RAS"), # 统一方向
ScaleIntensityRanged(
keys=["image"],
a_min=-1000, # CT 值范围 (HU 单位)
a_max=1000,
b_min=0.0,
b_max=1.0,
clip=True
),
RandCropByPosNegLabeld(
keys=["image", "label"],
label_key="label",
spatial_size=(96, 96, 64), # 3D 裁剪大小
pos=1, neg=1,
num_samples=4 # 每张图像生成 4 个样本
),
EnsureTyped(keys=["image", "label"], dtype=torch.float32)
])
# 创建数据集和数据加载器
train_ds = Dataset(data=train_files, transform=train_transforms)
train_loader = DataLoader(train_ds, batch_size=2, shuffle=True)
# 2. 构建 3D 分割模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = UNet(
spatial_dims=3,
in_channels=1,
out_channels=2, # 两类分割:背景 + 器官
channels=(16, 32, 64, 128, 256),
strides=(2, 2, 2, 2),
num_res_units=2
).to(device)
# 3. 设置训练参数
loss_function = DiceLoss(to_onehot_y=True, softmax=True)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
dice_metric = DiceMetric(include_background=False, reduction="mean")
# 4. 训练循环
max_epochs = 50
for epoch in range(max_epochs):
model.train()
epoch_loss = 0
for batch_data in train_loader:
inputs, labels = batch_data["image"].to(device), batch_data["label"].to(device)
optimizer.zero_grad()
outputs = model(inputs)
loss = loss_function(outputs, labels)
loss.backward()
optimizer.step()
epoch_loss += loss.item()
epoch_loss /= len(train_loader)
# 验证步骤 (简化版)
model.eval()
with torch.no_grad():
metric_sum = 0.0
for val_data in train_loader: # 实际应使用独立验证集
val_images, val_labels = val_data["image"].to(device), val_data["label"].to(device)
val_outputs = sliding_window_inference(
val_images, (96, 96, 64), 4, model
)
val_outputs = [torch.argmax(i, dim=1) for i in decollate_batch(val_outputs)]
dice_metric(y_pred=val_outputs, y=val_labels)
metric = dice_metric.aggregate().item()
dice_metric.reset()
print(f"Epoch {epoch+1}/{max_epochs}, Loss: {epoch_loss:.4f}, Dice: {metric:.4f}")
# 5. 可视化结果 (示例)
def visualize_slice(image, label, prediction, slice_index=25):
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
# 原始图像
axes[0].imshow(image[0, 0, :, :, slice_index], cmap="gray")
axes[0].set_title("Input Image")
axes[0].axis("off")
# 真实标签
axes[1].imshow(label[0, 0, :, :, slice_index], cmap="jet")
axes[1].set_title("Ground Truth")
axes[1].axis("off")
# 预测结果
axes[2].imshow(prediction[0, 0, :, :, slice_index], cmap="jet")
axes[2].set_title("Prediction")
axes[2].axis("off")
plt.show()
# 测试单张图像
test_data = train_ds[0]
image = test_data["image"].unsqueeze(0).to(device)
with torch.no_grad():
prediction = sliding_window_inference(image, (96, 96, 64), 4, model)
prediction = torch.argmax(prediction, dim=1, keepdim=True)
visualize_slice(
image.cpu().numpy(),
test_data["label"].unsqueeze(0).numpy(),
prediction.cpu().numpy()
)
Spacingd:标准化不同扫描仪的分辨率差异Orientationd:统一图像方向(RAS 坐标系)ScaleIntensityRanged:CT 值标准化(-1000 到 1000 HU)RandCropByPosNegLabeld:基于标签的智能裁剪# 添加数据增强
from monai.transforms import (
RandRotated, RandFlipd, RandZoomd
)
train_transforms.insert(6, Compose([
RandRotated(keys=["image", "label"], range_x=0.3, prob=0.5),
RandFlipd(keys=["image", "label"], spatial_axis=0, prob=0.5),
RandZoomd(keys=["image", "label"], min_zoom=0.9, max_zoom=1.1, prob=0.5)
]))
# 使用更先进的模型
from monai.networks.nets import SwinUNETR
model = SwinUNETR(
img_size=(96, 96, 64),
in_channels=1,
out_channels=2,
feature_size=48
).to(device)
# 添加学习率调度
lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs)
# 混合精度训练
scaler = torch.cuda.amp.GradScaler()
此示例展示了 MONAI 在医学图像分析中的核心优势:领域特定的预处理、优化的 3D 网络架构、医学影像评估指标和高效的大体积数据处理能力。实际应用中需根据具体临床任务调整网络结构和处理参数。
快速探索表格型 EHR 数据(如病人记录、药品记录等)。
安装命令:
pip install pandas polars pygwalker
一个结合 Pandas、Polars 和 PyGWalker 快速探索电子健康记录(EHR)数据的完整示例,包含数据加载、预处理和交互式可视化:
import pandas as pd
import polars as pl
import pygwalker as pyg
from datetime import datetime
# 示例 EHR 数据结构 (若需加载真实数据,替换为 read_csv/read_parquet)
data = {
"patient_id": [1001, 1002, 1003, 1001, 1004],
"visit_date": ["2023-01-15", "2023-02-20", "2023-01-05", "2023-03-10", "2023-02-28"],
"diagnosis": ["Hypertension", "Diabetes", "Hypertension", "Asthma", "Diabetes"],
"medication": ["Lisinopril", "Metformin", "Amlodipine", "Albuterol", "Insulin"],
"age": [45, 62, 58, 36, 70],
"blood_pressure": ["140/90", "130/85", "150/95", "120/80", "145/88"],
"lab_result": [None, 6.5, 7.1, None, 8.0]
}
# 方案 1: 使用 Pandas 加载数据
df_pd = pd.DataFrame(data)
df_pd["visit_date"] = pd.to_datetime(df_pd["visit_date"]) # 日期转换
# 方案 2: 使用 Polars 加载大数据(更高效)
df_pl = pl.DataFrame(data).with_columns(
pl.col("visit_date").str.to_date("%Y-%m-%d")
)
# 转换为 Pandas 供 PyGWalker 使用(Polars 处理+PyGWalker 可视化)
df_processed = df_pl.to_pandas()
# 使用 PyGWalker 进行交互式分析
walker = pyg.walk(
df_processed,
spec="./ehr_analysis.json", # 可选:保存/加载分析配置
dark="light", # 界面主题:light/dark
show_cloud_tool=False, # 隐藏云服务按钮
# 字段类型推断配置
field_specs={
"age": {"analyticType": "dimension"}, # 将年龄设为维度
"lab_result": {"analyticType": "measure"}
}
)
pd.read_csv("ehr.csv")高级分析支持:
# 在 PyGWalker 界面中直接使用 Pandas 语法
walker.set_global_query("""
systolic = blood_pressure.split('/')[0].astype(int)
diastolic = blood_pressure.split('/')[1].astype(int)
hypertension_flag = (systolic >= 140) | (diastolic >= 90)
""")
数据加载优化
df_pl = pl.scan_parquet("large_ehr.parquet").collect() # 惰性加载
diagnosis 到行 → 自动生成疾病分布age 到 Y 轴 → 自动切换箱线图medication 到颜色通道 → 多维度对比| 场景 | Pandas | Polars | PyGWalker |
|---|---|---|---|
| 数据加载速度 | ★★☆ | ★★★ | - |
| 内存效率 | ★★☆ | ★★★ | - |
| 交互式可视化 | - | - | ★★★ |
| 复杂分析支持 | ★★★ | ★★★ | ★★☆ |
💡 提示:对于超大数据集(>1GB),推荐:
用于化合物表示、分子指纹计算、QSAR 模型等。
安装命令:(推荐用 conda 安装)
conda install -c rdkit rdkit
使用 RDKit 计算分子指纹和相似度的完整示例代码,并附带详细解释:
from rdkit import Chem
from rdkit.Chem import AllChem, DataStructs
from rdkit.Chem.Draw import MolsToGridImage
import matplotlib.pyplot as plt
# 1. 分子创建与可视化
ethanol = Chem.MolFromSmiles("CCO") # 乙醇
ethylamine = Chem.MolFromSmiles("CCN") # 乙胺
# 可视化分子
img = MolsToGridImage([ethanol, ethylamine], legends=["Ethanol (CCO)", "Ethylamine (CCN)"], subImgSize=(300, 300))
plt.imshow(img)
plt.axis('off')
plt.show()
# 2. 分子指纹生成
# 使用 Morgan 指纹算法(圆形指纹),半径=2,生成 2048 位的位向量
fp_ethanol = AllChem.GetMorganFingerprintAsBitVect(ethanol, radius=2, nBits=2048)
fp_ethylamine = AllChem.GetMorganFingerprintAsBitVect(ethylamine, radius=2, nBits=2048)
# 3. 相似度计算
# 计算 Tanimoto 系数(Jaccard 相似度)
similarity = DataStructs.TanimotoSimilarity(fp_ethanol, fp_ethylamine)
# 4. 结果输出
print("=" * 50)
print(f"Tanimoto Similarity: {similarity:.4f}")
print("=" * 50)
print("Interpretation:")
print(f"- Ethanol (CCO) and Ethylamine (CCN) are {similarity*100:.1f}% similar")
print("- Similarity range: 0.0 (完全不同) to 1.0 (完全相同)")
print("- Value >0.5 suggests significant structural similarity")
print("- Difference due to terminal group: -OH vs -NH₂")
MolFromSmiles() 将 SMILES 字符串转换为分子对象CCO(羟基化合物)CCN(胺类化合物)radius=2:考虑原子周围两键范围内的结构特征nBits=2048:生成 2048 位的二进制指纹向量T(A,B) = |A∩B| / (|A| + |B| - |A∩B|)Tanimoto Similarity: 0.25-0.350.85:高度相似化合物
# 尝试不同分子对:
aspirin = Chem.MolFromSmiles("CC(=O)OC1=CC=CC=C1C(=O)O")
ibuprofen = Chem.MolFromSmiles("CC(C)CC1=CC=C(C=C1)C(C)C(=O)O")
# 比较不同指纹算法:
fp1 = AllChem.GetMACCSKeysFingerprint(mol) # MACCS 密钥
fp2 = Chem.RDKFingerprint(mol) # RDKit 拓扑指纹
注意事项:相似度值高度依赖指纹参数(半径、位长度)结构相似 ≠ 活性相似(需结合生物实验验证)对小分子效果最佳(分子量 < 800 Da)
运行此代码需要预先安装 RDKit(建议通过 Anaconda 安装):
conda install -c conda-forge rdkit matplotlib

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online