引言
计算病理学(Computational Pathology)正处于一场历史性的范式转移之中,从静态的、基于图块(Patch-based)的深度学习模型,向动态的、具备自主推理能力的 Agent(智能体)系统演进。

在这场变革的震中,是'规划模块'(Planning Module)——负责编排全切片图像(Whole Slide Image, WSI)分析过程的认知引擎。

与传统的计算机视觉任务不同,病理诊断面临的是'十亿像素级'的挑战,单张切片包含的信息量巨大且诊断特征稀疏。在这种语境下,'看'的能力次于'决定看哪里'的能力。
规划模块代表了病理医生工作流的计算化模拟。
它不仅是数据检索机制,更是一个执行分层任务拆解的复杂决策框架。通过模仿人类专家'低倍镜扫片建立全局认知,高倍镜聚焦验证微观细节'的策略,这些 Agent 优化了计算资源的分配,并显著提升了诊断的准确性。
本文将基于 PathFinder、PathAgent、CPathAgent、GIANT 和 SurvAgent 五项开创性研究,对病理 AI Agent 规划模块的发展历程与现状进行详尽的技术剖析。

一、范式重构:为何病理 AI 需要'自主规划'?
要理解现代规划模块的架构必要性,首先必须剖析病理学领域的独特约束。
WSI 是一个多尺度的视觉环境,诊断信息呈高度稀疏分布。一个决定性的恶性微灶可能仅占切片面积的 0.01%,却承载着 100% 的诊断权重。
传统的深度学习方法,如多示例学习(Multiple Instance Learning, MIL),试图通过聚合数万个图块的特征来进行预测。然而,这种'被动感知'的方式存在显著缺陷:它难以处理极端的信噪比,缺乏对空间关系的结构化推理能力,且无法解释'为什么关注这里'。
Agent 规划模块通过将 WSI 分析视为一个'序列决策过程'(Sequential Decision-Making Process)而非静态分类问题,彻底改变了模型与数据的交互方式。Agent 采用'感知 - 规划 - 行动 - 反思'的闭环,自主决定观察路径。
1-1:病理医生的认知模型镜像
规划模块的核心目标是将经过认证的病理医生的认知和运动行为'代码化',这种行为特征表现为明显的阶段性:
全局筛选(Triage) 快速的低倍镜扫描,过滤正常组织,识别'感兴趣区域'(ROIs)。
目标导航(Navigation) 将视野移动到筛选阶段确定的特定坐标。
多尺度审视(Multi-Scale Interrogation) 动态调整放大倍率(从 2.5x 到 10x, 20x, 或 40x),以验证细胞异型性、核分裂像或核分级。
假设修正(Hypothesis Refinement) 基于初步发现调整搜索策略(例如,'我看到了腺体结构,现在需要检查是否存在浸润')。
当前的研究,特别是 CPathAgent 和 PathFinder,显式地将这些行为转化为算法步骤。规划模块即是这一认知模型的软件实现,负责自主调度这些动作,充当高层临床目标(如'确定肿瘤分级')与低层运动机能(如'在 x=20,000 处裁剪 512x512 图像')之间的桥梁。
1-2:将医生的认知与诊断行为'代码化'
在病理 AI 从'识别'走向'诊断'的进程中,规划(Planning)模块是区分传统深度学习模型与 Agentic AI 的分水岭。近期的顶会论文 PathFinder (ICCV 2025) 和 CPathAgent (NeurIPS 2025) 不约而同地聚焦于此。
虽然它们都试图将医生的认知(Cognitive)与运动(Motor)行为'代码化',但它们选择了截然不同的实现路径。
核心挑战:如何复刻'低倍扫视 -> 高倍聚焦'?
经过认证的病理医生在阅片时,绝不会一开始就用 40 倍镜死磕某一个细胞。他们的行为具有显著的阶段性:
- 认知阶段:在低倍镜下快速浏览全片(WSI),建立宏观印象,锁定可疑区域(ROI)。
- 运动阶段:移动载玻片,切换高倍镜,对可疑区域进行确证。
这种'由粗到细(Coarse-to-Fine)'的流程是人类处理十亿像素级图像的生存智慧——两篇论文的核心目标,就是将这一智慧转化为算法逻辑。
PathFinder:基于'概率过滤'的流水线规划
PathFinder 将医生的行为抽象为一套标准化的流水线(Pipeline),它并不试图模拟医生'推拉显微镜'的物理动作,而是模拟医生大脑中的'信息过滤器'。

-
(1)认知代码化
- PathFinder 引入了一个分诊 Agent,它在低倍镜下对全片进行扫描,但它的目的不是看清细节,而是计算风险概率。
- 代码逻辑:
Input(Low_Mag_WSI) -> Output(Risk_Heatmap)——这相当于医生一眼扫过玻片,心里默念:'左上角和中间这块看着不太对劲'。
-
(2)行为代码化
- 基于分诊 Agent 的热力图,导航 Agent 直接离散采样(Select)top-k 个最具信息量的高倍视野。
- 代码逻辑:
Select(Top_K_Patches_based_on_Risk),它没有'移动'的过程,而是直接'瞬移'到了关键点。

左侧展示的是 Navigation Agent(导航代理)的工作流程——这是 AI 定位病理切片重点区域的核心逻辑:
- 输入:
Subsampled WSI:下采样后的全病理切片图像;Patch Description:目标病理区域的文本描述(比如'炎症区域')。
- 处理:
Text Encoder将文本描述转为特征,与下采样切片图像融合后,输入U-Net模型;U-Net输出Heatmap(热力图)(标记疑似目标区域的概率)。
- 输出:
- 通过
Probabilistic Sampling(概率采样)从热力图中选区域,最终得到High-Resolution Patch(高分辨率病理补丁)(即重点分析的局部区域)。
- 通过
右侧展示的是 Trajectory(分析轨迹)——展示导航代理对病理切片的依次分析过程:
- 导航代理基于左侧生成的热力图,从下采样切片中定位第一个区域,提取
Patch 1,并生成病理描述(如'含多类炎症细胞,提示炎症过程'); - 标记已分析的区域后,继续定位第二个区域,提取
Patch 2,生成描述(如'梭形细胞、卵圆形核等特征'); - 重复此流程,依次选择更多重点补丁(如
Patch 3),持续完成病理区域的分析。
简言之,这是一个


