Python 常用医疗 AI 库及案例解析 | 极客日志

PythonAI算法

Python 常用医疗 AI 库及案例解析

Python 在医疗 AI 领域已成为首选开发语言，涵盖数据处理、模型训练、大模型集成及系统部署。 2025 年主流 Python 库，包括 Polars、scikit-learn、PyTorch、LangChain、FastAPI 等，并提供三个实战案例：利用 MONAI 进行医学图像分割与 3D 处理；结合 Pandas、Polars 与 PyGWalker 探索电子病历数据；使用 RDKit 计算分子指纹与相似度以辅助药物发现。内容涉及数据预处理、模型构建、可视化及优化建议，适用于医疗 AI 开发者参考。

开源信徒发布于 2026/4/8更新于 2026/7/2037 浏览

随着人工智能在医疗领域的持续深入发展，Python 已经成为医疗 AI 项目的首选开发语言。从数据处理、模型训练、大模型集成到系统部署与可视化，Python 社区在过去几年中涌现出大量功能强大且持续演进的开源工具。本指南整理了在 2025 年医疗 AI 项目中广泛使用的 Python 库，涵盖了机器学习、深度学习、大语言模型（LLM）、数据可视化、Web API 构建、Agent 自动化等多个模块。

🔍 一、数据科学与机器学习

库名	说明
Polars	高性能 DataFrame 库，性能远超 Pandas，支持多线程、懒执行。2025 年非常流行。
scikit-learn 1.5+	经典 ML 库，持续更新中，新增更多模型评估工具和高阶调参接口。
XGBoost / LightGBM / CatBoost	树模型三大王者，依旧是 Kaggle 和工业界主力。
skops	用于将 scikit-learn 模型转换为可部署格式的库，2025 年较为热门。
H2O Wave	可快速构建 ML Web 应用的库，适合原型展示。

🤖 二、深度学习

库名	说明
PyTorch 2.2+	加入了更完整的 `torch.compile` 支持，大幅提升训练速度。
Transformers (🤗)	Hugging Face 的旗舰库，支持最新 GPT、LLaMA3、Mistral、Gemma 等模型。
Diffusers (🤗)	文生图、图生图的标准库，2025 年继续火爆。
Keras 3.x	完全支持 PyTorch 和 JAX 后端，统一 API，变得更强大。
FastAI 2.8+	PyTorch 封装库，便捷构建深度学习模型，教学使用友好。

🌐 三、大语言模型 (LLM) 与 RAG

库名	说明
LangChain	构建 LLM 工作流的库，支持 OpenAI、Anthropic、Claude 等模型调用。
LlamaIndex	构建向量索引与检索增强生成（RAG）系统的核心库。
Haystack	来自 Deepset 的 RAG 框架，支持多种后端。2025 年持续更新。
InstructorEmbedding	微调 embedding 模型，效果比 OpenAI embeddings 更准。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

库名	说明
Plotly 5.x	交互式图表，支持 Jupyter 和 Web，持续流行。
Altair 5+	基于 Vega 的声明式可视化工具，支持 Pandas 和 Polars。
PyGWalker	类似 Tableau 的数据探索工具，2025 年新晋热门。
Seaborn v0.13+	经典静态图工具，仍常用。

库名	说明
FastAPI	异步、类型注解友好的 API 框架，2025 年依旧最火。
Litestar (前身为 Starlite)	FastAPI 替代者，架构更现代、性能更强。
Reflex (前身为 Pynecone)	用 Python 写前端和后端，生成完整 Web 应用，2025 年大热。
NiceGUI	用 Python 写交互式 GUI，基于 Vue + Tailwind，快速开发界面。

库名	说明
Autogen (Microsoft)	构建多智能体协作系统，支持代码写作、任务规划等。
CrewAI	用 LLM 构建多角色 AI 工作流系统，支持角色分工、任务追踪。
LangGraph	基于 LangChain 的图结构 LLM 流程管理库，适合构建复杂逻辑。

库名	说明
Rich / Textual	用于终端 UI 的现代化库，支持彩色日志、表格、进度条等。
Pydantic v2	类型验证神器，性能提升巨大，广泛用于 FastAPI 和数据校验。
Typer	用于构建 CLI 工具的库，语法优美、支持类型注解。
Uvicorn / Gunicorn / Hypercorn	常用 Python Web 服务器，支持异步。

pip install monai nibabel

from monai.transforms import (
    LoadImaged, AddChanneld, Spacingd, Orientationd,
    ScaleIntensityRanged, RandCropByPosNegLabeld, Compose, EnsureTyped
)
from monai.networks.nets import UNet
from monai.losses import DiceLoss
from monai.metrics import DiceMetric
from monai.data import Dataset, DataLoader, decollate_batch
from monai.inferers import sliding_window_inference
import torch
import numpy as np
import matplotlib.pyplot as plt

# 1. 数据准备与预处理
data_dir = "./medical_images/"
train_files = [
    {"image": data_dir + "patient1_CT.nii.gz", "label": data_dir + "patient1_mask.nii.gz"},
    {"image": data_dir + "patient2_CT.nii.gz", "label": data_dir + "patient2_mask.nii.gz"}
]

# 医学图像预处理流程
train_transforms = Compose([
    LoadImaged(keys=["image", "label"]),
    AddChanneld(keys=["image", "label"]),
    Spacingd(keys=["image", "label"], pixdim=(1.0, 1.0, 2.0), mode=("bilinear", "nearest")),
    Orientationd(keys=["image", "label"], axcodes="RAS"),
    ScaleIntensityRanged(keys=["image"], a_min=-1000, a_max=1000, b_min=0.0, b_max=1.0, clip=True),
    RandCropByPosNegLabeld(keys=["image", "label"], label_key="label", spatial_size=(96, 96, 64), pos=1, neg=1, num_samples=4),
    EnsureTyped(keys=["image", "label"], dtype=torch.float32)
])

# 创建数据集和数据加载器
train_ds = Dataset(data=train_files, transform=train_transforms)
train_loader = DataLoader(train_ds, batch_size=2, shuffle=True)

# 2. 构建 3D 分割模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = UNet(
    spatial_dims=3, in_channels=1, out_channels=2,
    channels=(16, 32, 64, 128, 256), strides=(2, 2, 2, 2), num_res_units=2
).to(device)

# 3. 设置训练参数
loss_function = DiceLoss(to_onehot_y=True, softmax=True)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
dice_metric = DiceMetric(include_background=False, reduction="mean")

# 4. 训练循环
max_epochs = 50
for epoch in range(max_epochs):
    model.train()
    epoch_loss = 0
    for batch_data in train_loader:
        inputs, labels = batch_data["image"].to(device), batch_data["label"].to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = loss_function(outputs, labels)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
    epoch_loss /= len(train_loader)

    # 验证步骤 (简化版)
    model.eval()
    with torch.no_grad():
        metric_sum = 0.0
        for val_data in train_loader:
            val_images, val_labels = val_data["image"].to(device), val_data["label"].to(device)
            val_outputs = sliding_window_inference(val_images, (96, 96, 64), 4, model)
            val_outputs = [torch.argmax(i, dim=1) for i in decollate_batch(val_outputs)]
            dice_metric(y_pred=val_outputs, y=val_labels)
        metric = dice_metric.aggregate().item()
        dice_metric.reset()
    print(f"Epoch {epoch+1}/{max_epochs}, Loss: {epoch_loss:.4f}, Dice: {metric:.4f}")

# 5. 可视化结果 (示例)
def visualize_slice(image, label, prediction, slice_index=25):
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))
    axes[0].imshow(image[0, 0, :, :, slice_index], cmap="gray")
    axes[0].set_title("Input Image")
    axes[0].axis("off")
    axes[1].imshow(label[0, 0, :, :, slice_index], cmap="jet")
    axes[1].set_title("Ground Truth")
    axes[1].axis("off")
    axes[2].imshow(prediction[0, 0, :, :, slice_index], cmap="jet")
    axes[2].set_title("Prediction")
    axes[2].axis("off")
    plt.show()

test_data = train_ds[0]
image = test_data["image"].unsqueeze(0).to(device)
with torch.no_grad():
    prediction = sliding_window_inference(image, (96, 96, 64), 4, model)
    prediction = torch.argmax(prediction, dim=1, keepdim=True)
    visualize_slice(image.cpu().numpy(), test_data["label"].unsqueeze(0).numpy(), prediction.cpu().numpy())

# 添加数据增强
from monai.transforms import RandRotated, RandFlipd, RandZoomd
train_transforms.insert(6, Compose([
    RandRotated(keys=["image", "label"], range_x=0.3, prob=0.5),
    RandFlipd(keys=["image", "label"], spatial_axis=0, prob=0.5),
    RandZoomd(keys=["image", "label"], min_zoom=0.9, max_zoom=1.1, prob=0.5)
]))

# 使用更先进的模型
from monai.networks.nets import SwinUNETR
model = SwinUNETR(img_size=(96, 96, 64), in_channels=1, out_channels=2, feature_size=48).to(device)

# 添加学习率调度
lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs)

# 混合精度训练
scaler = torch.cuda.amp.GradScaler()

pip install pandas polars pygwalker

import pandas as pd
import polars as pl
import pygwalker as pyg
from datetime import datetime

# 示例 EHR 数据结构 (若需加载真实数据，替换为 read_csv/read_parquet)
data = {
    "patient_id": [1001, 1002, 1003, 1001, 1004],
    "visit_date": ["2023-01-15", "2023-02-20", "2023-01-05", "2023-03-10", "2023-02-28"],
    "diagnosis": ["Hypertension", "Diabetes", "Hypertension", "Asthma", "Diabetes"],
    "medication": ["Lisinopril", "Metformin", "Amlodipine", "Albuterol", "Insulin"],
    "age": [45, 62, 58, 36, 70],
    "blood_pressure": ["140/90", "130/85", "150/95", "120/80", "145/88"],
    "lab_result": [None, 6.5, 7.1, None, 8.0]
}

# 方案 1: 使用 Pandas 加载数据
df_pd = pd.DataFrame(data)
df_pd["visit_date"] = pd.to_datetime(df_pd["visit_date"])

# 方案 2: 使用 Polars 加载大数据（更高效）
df_pl = pl.DataFrame(data).with_columns(pl.col("visit_date").str.to_date("%Y-%m-%d"))

# 转换为 Pandas 供 PyGWalker 使用（Polars 处理+PyGWalker 可视化）
df_processed = df_pl.to_pandas()

# 使用 PyGWalker 进行交互式分析
walker = pyg.walk(
    df_processed,
    spec="./ehr_analysis.json",
    dark="light",
    show_cloud_tool=False,
    field_specs={
        "age": {"analyticType": "dimension"},
        "lab_result": {"analyticType": "measure"}
    }
)

# 在 PyGWalker 界面中直接使用 Pandas 语法
walker.set_global_query("""
systolic = blood_pressure.split('/')[0].astype(int)
diastolic = blood_pressure.split('/')[1].astype(int)
hypertension_flag = (systolic >= 140) | (diastolic >= 90)
""")

df_pl = pl.scan_parquet("large_ehr.parquet").collect()  # 惰性加载

场景	Pandas	Polars	PyGWalker
数据加载速度	★★☆	★★★	-
内存效率	★★☆	★★★	-
交互式可视化	-	-	★★★
复杂分析支持	★★★	★★★	★★☆

conda install -c rdkit rdkit

from rdkit import Chem
from rdkit.Chem import AllChem, DataStructs
from rdkit.Chem.Draw import MolsToGridImage
import matplotlib.pyplot as plt

# 1. 分子创建与可视化
ethanol = Chem.MolFromSmiles("CCO")  # 乙醇
ethylamine = Chem.MolFromSmiles("CCN")  # 乙胺

# 可视化分子
img = MolsToGridImage([ethanol, ethylamine], legends=["Ethanol (CCO)", "Ethylamine (CCN)"], subImgSize=(300, 300))
plt.imshow(img)
plt.axis('off')
plt.show()

# 2. 分子指纹生成
# 使用 Morgan 指纹算法（圆形指纹），半径=2，生成 2048 位的位向量
fp_ethanol = AllChem.GetMorganFingerprintAsBitVect(ethanol, radius=2, nBits=2048)
fp_ethylamine = AllChem.GetMorganFingerprintAsBitVect(ethylamine, radius=2, nBits=2048)

# 3. 相似度计算
# 计算 Tanimoto 系数（Jaccard 相似度）
similarity = DataStructs.TanimotoSimilarity(fp_ethanol, fp_ethylamine)

# 4. 结果输出
print("="*50)
print(f"Tanimoto Similarity: {similarity:.4f}")
print("="*50)
print("Interpretation:")
print(f"- Ethanol (CCO) and Ethylamine (CCN) are {similarity*100:.1f}% similar")
print("- Similarity range: 0.0 (完全不同) to 1.0 (完全相同)")
print("- Value >0.5 suggests significant structural similarity")
print("- Difference due to terminal group: -OH vs -NH₂")

# 尝试不同分子对
aspirin = Chem.MolFromSmiles("CC(=O)OC1=CC=CC=C1C(=O)O")
ibuprofen = Chem.MolFromSmiles("CC(C)CC1=CC=C(C=C1)C(C)C(=O)O")

# 比较不同指纹算法
fp1 = AllChem.GetMACCSKeysFingerprint(mol)  # MACCS 密钥
fp2 = Chem.RDKFingerprint(mol)  # RDKit 拓扑指纹

conda install -c conda-forge rdkit matplotlib

Python 常用医疗 AI 库及案例解析

🔍 一、数据科学与机器学习

🤖 二、深度学习

🌐 三、大语言模型 (LLM) 与 RAG

更多推荐文章

相关免费在线工具

📊 四、数据可视化

🕸️ 五、Web 开发 & API

🧠 六、自动化 & AI Agent

🛠 七、其他值得关注的工具库

练手案例

🧬 案例一、医学图像处理与分析

1. MONAI（Medical Open Network for AI）

关键组件说明：

实际应用场景：

进阶优化建议：

2. Pandas + Polars + PyGWalker

关键功能说明：

典型工作流：

优势场景：

🧪 三、药物发现与分子模拟

3. RDKit

代码解析：

应用场景：

扩展建议：

更多推荐文章

相关免费在线工具

Python 常用医疗 AI 库及案例解析

🔍 一、数据科学与机器学习

🤖 二、深度学习

🌐 三、大语言模型 (LLM) 与 RAG

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

📊 四、数据可视化

🕸️ 五、Web 开发 & API

🧠 六、自动化 & AI Agent

🛠 七、其他值得关注的工具库

练手案例

🧬 案例一、医学图像处理与分析

1. MONAI（Medical Open Network for AI）

关键组件说明：

实际应用场景：

进阶优化建议：

2. Pandas + Polars + PyGWalker

关键功能说明：

典型工作流：

优势场景：

🧪 三、药物发现与分子模拟

3. RDKit

代码解析：

应用场景：

扩展建议：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具