引言
计算病理学(Computational Pathology)正处于一场历史性的范式转移之中,从静态的、基于图块(Patch-based)的深度学习模型,向动态的、具备自主推理能力的 Agent(智能体)系统演进。

在这场变革的震中,是'规划模块'(Planning Module)——负责编排全切片图像(Whole Slide Image, WSI)分析过程的认知引擎。

与传统的计算机视觉任务不同,病理诊断面临的是'十亿像素级'的挑战,单张切片包含的信息量巨大且诊断特征稀疏。在这种语境下,'看'的能力次于'决定看哪里'的能力。
规划模块代表了病理医生工作流的计算化模拟。
它不仅是数据检索机制,更是一个执行分层任务拆解的复杂决策框架。通过模仿人类专家'低倍镜扫片建立全局认知,高倍镜聚焦验证微观细节'的策略,这些 Agent 优化了计算资源的分配,并显著提升了诊断的准确性。
本文将基于 PathFinder、PathAgent、CPathAgent、GIANT 和 SurvAgent 五项开创性研究,对病理 AI Agent 规划模块的发展历程与现状进行详尽的技术剖析。

一、范式重构:为何病理 AI 需要'自主规划'?
要理解现代规划模块的架构必要性,首先必须剖析病理学领域的独特约束。
WSI 是一个多尺度的视觉环境,诊断信息呈高度稀疏分布。一个决定性的恶性微灶可能仅占切片面积的 0.01%,却承载着 100% 的诊断权重。
传统的深度学习方法,如多示例学习(Multiple Instance Learning, MIL),试图通过聚合数万个图块的特征来进行预测。然而,这种'被动感知'的方式存在显著缺陷:它难以处理极端的信噪比,缺乏对空间关系的结构化推理能力,且无法解释'为什么关注这里'。
Agent 规划模块通过将 WSI 分析视为一个'序列决策过程'(Sequential Decision-Making Process)而非静态分类问题,彻底改变了模型与数据的交互方式。Agent 采用'感知 - 规划 - 行动 - 反思'的闭环,自主决定观察路径。
1-1:病理医生的认知模型镜像
规划模块的核心目标是将经过认证的病理医生的认知和运动行为'代码化',这种行为特征表现为明显的阶段性:
全局筛选(Triage) 快速的低倍镜扫描,过滤正常组织,识别'感兴趣区域'(ROIs)。
目标导航(Navigation) 将视野移动到筛选阶段确定的特定坐标。
多尺度审视(Multi-Scale Interrogation) 动态调整放大倍率(从 2.5x 到 10x, 20x, 或 40x),以验证细胞异型性、核分裂像或核分级。
假设修正(Hypothesis Refinement) 基于初步发现调整搜索策略(例如,'我看到了腺体结构,现在需要检查是否存在浸润')。
当前的研究,特别是 CPathAgent 和 PathFinder,显式地将这些行为转化为算法步骤。规划模块即是这一认知模型的软件实现,负责自主调度这些动作,充当高层临床目标(如'确定肿瘤分级')与低层运动机能(如'在 x=20,000 处裁剪 512x512 图像')之间的桥梁。




