Python常用医疗AI库以及案例解析（2025年版、上）

Ne0inhk

23 Mar 2026 — 12 min read

随着人工智能在医疗领域的持续深入发展，Python 已经成为医疗 AI 项目的首选开发语言。从数据处理、模型训练、大模型集成到系统部署与可视化，Python 社区在过去几年中涌现出大量功能强大且持续演进的开源工具。本指南整理了在 2025 年医疗 AI 项目中广泛使用的 Python 库，涵盖了机器学习、深度学习、大语言模型（LLM）、数据可视化、Web API 构建、Agent 自动化等多个模块，

🔍 一、数据科学与机器学习

库名	说明
Polars	高性能 DataFrame 库，性能远超 Pandas，支持多线程、懒执行。2025 年非常流行。
scikit-learn 1.5+	经典 ML 库，持续更新中，新增更多模型评估工具和高阶调参接口。
XGBoost / LightGBM / CatBoost	树模型三大王者，依旧是 Kaggle 和工业界主力。
skops	用于将 scikit-learn 模型转换为可部署格式的库，2025 年较为热门。
H2O Wave	可快速构建 ML Web 应用的库，适合原型展示。

🤖 二、深度学习

库名	说明
PyTorch 2.2+	加入了更完整的 `torch.compile` 支持，大幅提升训练速度。
Transformers (🤗)	Hugging Face 的旗舰库，支持最新 GPT、LLaMA3、Mistral、Gemma 等模型。
Diffusers (🤗)	文生图、图生图的标准库，2025 年继续火爆。
Keras 3.x	完全支持 PyTorch 和 JAX 后端，统一 API，变得更强大。
FastAI 2.8+	PyTorch 封装库，便捷构建深度学习模型，教学使用友好。

🌐 三、大语言模型 (LLM) 与 RAG

库名	说明
LangChain	构建 LLM 工作流的库，支持 OpenAI、Anthropic、Claude 等模型调用。
LlamaIndex	构建向量索引与检索增强生成（RAG）系统的核心库。
Haystack	来自 Deepset 的 RAG 框架，支持多种后端。2025 年持续更新。
InstructorEmbedding	微调 embedding 模型，效果比 OpenAI embeddings 更准。
VLLM / TGI / LMDeploy	高效部署大模型的库，在企业部署中非常关键。

📊 四、数据可视化

库名	说明
Plotly 5.x	交互式图表，支持 Jupyter 和 Web，持续流行。
Altair 5+	基于 Vega 的声明式可视化工具，支持 Pandas 和 Polars。
PyGWalker	类似 Tableau 的数据探索工具，2025 年新晋热门。
Seaborn v0.13+	经典静态图工具，仍常用。

🕸️ 五、Web开发 & API

库名	说明
FastAPI	异步、类型注解友好的 API 框架，2025 年依旧最火。
Litestar (前身为 Starlite)	FastAPI 替代者，架构更现代、性能更强。
Reflex (前身为 Pynecone)	用 Python 写前端和后端，生成完整 Web 应用，2025 年大热。
NiceGUI	用 Python 写交互式 GUI，基于 Vue + Tailwind，快速开发界面。

🧠 六、自动化 & AI Agent

库名	说明
Autogen (Microsoft)	构建多智能体协作系统，支持代码写作、任务规划等。
CrewAI	用 LLM 构建多角色 AI 工作流系统，支持角色分工、任务追踪。
LangGraph	基于 LangChain 的图结构 LLM 流程管理库，适合构建复杂逻辑。

🛠 七、其他值得关注的工具库

库名	说明
Rich / Textual	用于终端 UI 的现代化库，支持彩色日志、表格、进度条等。
Pydantic v2	类型验证神器，性能提升巨大，广泛用于 FastAPI 和数据校验。
Typer	用于构建 CLI 工具的库，语法优美、支持类型注解。
Uvicorn / Gunicorn / Hypercorn	常用 Python Web 服务器，支持异步。

练手案例

🧬 案例一、医学图像处理与分析

1. MONAI（Medical Open Network for AI）

专为医学影像（CT/MRI）打造的 PyTorch 库。

基本示例：加载并处理 MRI 图像

安装命令：

pip install monai nibabel

下面是一个医学图像处理示例，结合了数据加载、预处理、3D UNet模型构建和训练流程，使用MONAI库实现端到端的医学图像分割任务：

from monai.transforms import( LoadImaged, AddChanneld, Spacingd, Orientationd, ScaleIntensityRanged, RandCropByPosNegLabeld, Compose, EnsureTyped )from monai.networks.nets import UNet from monai.losses import DiceLoss from monai.metrics import DiceMetric from monai.data import Dataset, DataLoader, decollate_batch from monai.inferers import sliding_window_inference import torch import numpy as np import matplotlib.pyplot as plt # 1. 数据准备与预处理 data_dir ="./medical_images/" train_files =[{"image": data_dir +"patient1_CT.nii.gz","label": data_dir +"patient1_mask.nii.gz"},{"image": data_dir +"patient2_CT.nii.gz","label": data_dir +"patient2_mask.nii.gz"},# 添加更多数据...]# 医学图像预处理流程 train_transforms = Compose([ LoadImaged(keys=["image","label"]), AddChanneld(keys=["image","label"]), Spacingd( keys=["image","label"], pixdim=(1.0,1.0,2.0),# 调整体素间距 (x,y,z) mode=("bilinear","nearest")# 图像用双线性插值，标签用最近邻), Orientationd(keys=["image","label"], axcodes="RAS"),# 统一方向 ScaleIntensityRanged( keys=["image"], a_min=-1000,# CT值范围 (HU单位) a_max=1000, b_min=0.0, b_max=1.0, clip=True), RandCropByPosNegLabeld( keys=["image","label"], label_key="label", spatial_size=(96,96,64),# 3D裁剪大小 pos=1, neg=1, num_samples=4# 每张图像生成4个样本), EnsureTyped(keys=["image","label"], dtype=torch.float32)])# 创建数据集和数据加载器 train_ds = Dataset(data=train_files, transform=train_transforms) train_loader = DataLoader(train_ds, batch_size=2, shuffle=True)# 2. 构建3D分割模型 device = torch.device("cuda"if torch.cuda.is_available()else"cpu") model = UNet( spatial_dims=3, in_channels=1, out_channels=2,# 两类分割：背景+器官 channels=(16,32,64,128,256), strides=(2,2,2,2), num_res_units=2).to(device)# 3. 设置训练参数 loss_function = DiceLoss(to_onehot_y=True, softmax=True) optimizer = torch.optim.Adam(model.parameters(), lr=1e-3) dice_metric = DiceMetric(include_background=False, reduction="mean")# 4. 训练循环 max_epochs =50for epoch inrange(max_epochs): model.train() epoch_loss =0for batch_data in train_loader: inputs, labels = batch_data["image"].to(device), batch_data["label"].to(device) optimizer.zero_grad() outputs = model(inputs) loss = loss_function(outputs, labels) loss.backward() optimizer.step() epoch_loss += loss.item() epoch_loss /=len(train_loader)# 验证步骤 (简化版) model.eval()with torch.no_grad(): metric_sum =0.0for val_data in train_loader:# 实际应使用独立验证集 val_images, val_labels = val_data["image"].to(device), val_data["label"].to(device) val_outputs = sliding_window_inference( val_images,(96,96,64),4, model ) val_outputs =[torch.argmax(i, dim=1)for i in decollate_batch(val_outputs)] dice_metric(y_pred=val_outputs, y=val_labels) metric = dice_metric.aggregate().item() dice_metric.reset()print(f"Epoch {epoch+1}/{max_epochs}, Loss: {epoch_loss:.4f}, Dice: {metric:.4f}")# 5. 可视化结果 (示例)defvisualize_slice(image, label, prediction, slice_index=25): fig, axes = plt.subplots(1,3, figsize=(15,5))# 原始图像 axes[0].imshow(image[0,0,:,:, slice_index], cmap="gray") axes[0].set_title("Input Image") axes[0].axis("off")# 真实标签 axes[1].imshow(label[0,0,:,:, slice_index], cmap="jet") axes[1].set_title("Ground Truth") axes[1].axis("off")# 预测结果 axes[2].imshow(prediction[0,0,:,:, slice_index], cmap="jet") axes[2].set_title("Prediction") axes[2].axis("off") plt.show()# 测试单张图像 test_data = train_ds[0] image = test_data["image"].unsqueeze(0).to(device)with torch.no_grad(): prediction = sliding_window_inference(image,(96,96,64),4, model) prediction = torch.argmax(prediction, dim=1, keepdim=True) visualize_slice( image.cpu().numpy(), test_data["label"].unsqueeze(0).numpy(), prediction.cpu().numpy())

关键组件说明：

数据预处理流程：
- Spacingd：标准化不同扫描仪的分辨率差异
- Orientationd：统一图像方向（RAS坐标系）
- ScaleIntensityRanged：CT值标准化（-1000到1000 HU）
- RandCropByPosNegLabeld：基于标签的智能裁剪
3D UNet架构：
- 专门处理体积数据（如CT/MRI）
- 残差单元提升梯度流动
- 多尺度特征提取能力
医学图像特定技术：
- Dice损失函数：处理类别不平衡
- Sliding Window推理：处理大尺寸体积数据
- 体素间距保留：保持物理尺寸一致性
可视化：
- 三视图对比（原始图像/真实标签/预测结果）
- 多平面重建（轴向/冠状/矢状面）

实际应用场景：

器官分割（肝脏/肾脏/肿瘤）
病变检测
手术规划
放射治疗剂量计算

进阶优化建议：

# 添加数据增强from monai.transforms import( RandRotated, RandFlipd, RandZoomd ) train_transforms.insert(6,# 在强度归一化后添加 Compose([ RandRotated(keys=["image","label"], range_x=0.3, prob=0.5), RandFlipd(keys=["image","label"], spatial_axis=0, prob=0.5), RandZoomd(keys=["image","label"], min_zoom=0.9, max_zoom=1.1, prob=0.5)]))# 使用更先进的模型from monai.networks.nets import SwinUNETR model = SwinUNETR( img_size=(96,96,64), in_channels=1, out_channels=2, feature_size=48).to(device)# 添加学习率调度 lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs)# 混合精度训练 scaler = torch.cuda.amp.GradScaler()

此示例展示了MONAI在医学图像分析中的核心优势：领域特定的预处理、优化的3D网络架构、医学影像评估指标和高效的大体积数据处理能力。实际应用中需根据具体临床任务调整网络结构和处理参数。

2. Pandas + Polars + PyGWalker

快速探索表格型 EHR 数据（如病人记录、药品记录等）。

示例：用 PyGWalker 交互式探索电子病历

安装命令：

pip install pandas polars pygwalker

一个结合 Pandas、Polars 和 PyGWalker 快速探索电子健康记录（EHR）数据的完整示例，包含数据加载、预处理和交互式可视化：

import pandas as pd import polars as pl import pygwalker as pyg from datetime import datetime # 示例 EHR 数据结构 (若需加载真实数据，替换为 read_csv/read_parquet) data ={"patient_id":[1001,1002,1003,1001,1004],"visit_date":["2023-01-15","2023-02-20","2023-01-05","2023-03-10","2023-02-28"],"diagnosis":["Hypertension","Diabetes","Hypertension","Asthma","Diabetes"],"medication":["Lisinopril","Metformin","Amlodipine","Albuterol","Insulin"],"age":[45,62,58,36,70],"blood_pressure":["140/90","130/85","150/95","120/80","145/88"],"lab_result":[None,6.5,7.1,None,8.0]}# 方案1: 使用Pandas加载数据 df_pd = pd.DataFrame(data) df_pd["visit_date"]= pd.to_datetime(df_pd["visit_date"])# 日期转换# 方案2: 使用Polars加载大数据（更高效） df_pl = pl.DataFrame(data).with_columns( pl.col("visit_date").str.to_date("%Y-%m-%d"))# 转换为Pandas供PyGWalker使用（Polars处理+PyGWalker可视化） df_processed = df_pl.to_pandas()# 使用PyGWalker进行交互式分析 walker = pyg.walk( df_processed, spec="./ehr_analysis.json",# 可选：保存/加载分析配置 dark="light",# 界面主题：light/dark show_cloud_tool=False,# 隐藏云服务按钮# 字段类型推断配置 field_specs={"age":{"analyticType":"dimension"},# 将年龄设为维度"lab_result":{"analyticType":"measure"}})

关键功能说明：

小数据：直接使用 pd.read_csv("ehr.csv")
大数据：用Polars加速处理 → 转Pandas

PyGWalker 交互技巧：
- 拖拽分析：将字段拖到X/Y轴、颜色、大小等通道
- 图表推荐：智能识别字段类型推荐图表
- 一键生成：
  - 患者年龄分布直方图
  - 疾病类型环形图
  - 实验室指标趋势线
  - 多指标散点矩阵

高级分析支持：

# 在PyGWalker界面中直接使用Pandas语法 walker.set_global_query(""" systolic = blood_pressure.split('/')[0].astype(int) diastolic = blood_pressure.split('/')[1].astype(int) hypertension_flag = (systolic >= 140) | (diastolic >= 90) """)

数据加载优化

df_pl = pl.scan_parquet("large_ehr.parquet").collect()# 惰性加载

典型工作流：

数据加载：Polars处理百万级记录（比Pandas快5-10倍）
预处理：在Polars中完成清洗/转换
交互探索：
- 步骤1：拖拽 diagnosis 到行 → 自动生成疾病分布
- 步骤2：拖拽 age 到Y轴 → 自动切换箱线图
- 步骤3：添加 medication 到颜色通道 → 多维度对比

优势场景：

场景	Pandas	Polars	PyGWalker
数据加载速度	★★☆	★★★	-
内存效率	★★☆	★★★	-
交互式可视化	-	-	★★★
复杂分析支持	★★★	★★★	★★☆

💡 提示：对于超大数据集（>1GB），推荐：

🧪 三、药物发现与分子模拟

3. RDKit

用于化合物表示、分子指纹计算、QSAR 模型等。

示例：分子指纹和相似度

安装命令：（推荐用 conda 安装）

conda install -c rdkit rdkit

使用RDKit计算分子指纹和相似度的完整示例代码，并附带详细解释：

from rdkit import Chem from rdkit.Chem import AllChem, DataStructs from rdkit.Chem.Draw import MolsToGridImage import matplotlib.pyplot as plt # 1. 分子创建与可视化 ethanol = Chem.MolFromSmiles("CCO")# 乙醇 ethylamine = Chem.MolFromSmiles("CCN")# 乙胺# 可视化分子 img = MolsToGridImage([ethanol, ethylamine], legends=["Ethanol (CCO)","Ethylamine (CCN)"], subImgSize=(300,300)) plt.imshow(img) plt.axis('off') plt.show()# 2. 分子指纹生成# 使用Morgan指纹算法（圆形指纹），半径=2，生成2048位的位向量 fp_ethanol = AllChem.GetMorganFingerprintAsBitVect(ethanol, radius=2, nBits=2048) fp_ethylamine = AllChem.GetMorganFingerprintAsBitVect(ethylamine, radius=2, nBits=2048)# 3. 相似度计算# 计算Tanimoto系数（Jaccard相似度） similarity = DataStructs.TanimotoSimilarity(fp_ethanol, fp_ethylamine)# 4. 结果输出print("="*50)print(f"Tanimoto Similarity: {similarity:.4f}")print("="*50)print("Interpretation:")print(f"- Ethanol (CCO) and Ethylamine (CCN) are {similarity*100:.1f}% similar")print("- Similarity range: 0.0 (完全不同) to 1.0 (完全相同)")print("- Value >0.5 suggests significant structural similarity")print("- Difference due to terminal group: -OH vs -NH₂")

代码解析：

分子创建：
- MolFromSmiles() 将SMILES字符串转换为分子对象
- 乙醇：CCO（羟基化合物）
- 乙胺：CCN（胺类化合物）
分子指纹：
- 使用 Morgan指纹算法（圆形指纹）
- radius=2：考虑原子周围两键范围内的结构特征
- nBits=2048：生成2048位的二进制指纹向量
- 算法原理：通过迭代扩展识别每个原子周围的独特子结构
相似度计算：
- Tanimoto系数 = 共有特征数 / (特征A总数 + 特征B总数 - 共有特征数)
- 数学表示：T(A,B) = |A∩B| / (|A| + |B| - |A∩B|)
- 取值范围：0.0（完全不同）到 1.0（完全相同）
结果解释：
- 典型输出：Tanimoto Similarity: 0.25-0.35
- 相似度约30%：两个分子有相同的乙基骨架（-CH₂-CH₃），但不同末端基团（-OH vs -NH₂）
- 在药物发现中：
  - 0.3-0.7：中等相似
  - <0.2：结构差异大

0.85：高度相似化合物

应用场景：

虚拟筛选：快速筛选大型化合物数据库
先导化合物优化：评估结构修饰后的相似性变化
聚类分析：对化合物库进行结构分组
ADMET预测：基于相似性的性质预测

扩展建议：

# 尝试不同分子对： aspirin = Chem.MolFromSmiles("CC(=O)OC1=CC=CC=C1C(=O)O") ibuprofen = Chem.MolFromSmiles("CC(C)CC1=CC=C(C=C1)C(C)C(=O)O")# 比较不同指纹算法： fp1 = AllChem.GetMACCSKeysFingerprint(mol)# MACCS密钥 fp2 = Chem.RDKFingerprint(mol)# RDKit拓扑指纹

注意事项：相似度值高度依赖指纹参数（半径、位长度）结构相似 ≠ 活性相似（需结合生物实验验证）对小分子效果最佳（分子量 < 800 Da）

运行此代码需要预先安装RDKit（建议通过Anaconda安装）：

conda install -c conda-forge rdkit matplotlib