计算病理与医学 AI 迈向智能体时代：5 篇文献技术路线对比

计算病理学（Computational Pathology）正处于一场历史性的范式转移之中，从静态的、基于图块（Patch-based）的深度学习模型，向动态的、具备自主推理能力的 Agent（智能体）系统演进。

在这场变革的震中，是'规划模块'（Planning Module）——负责编排全切片图像（Whole Slide Image, WSI）分析过程的认知引擎。

与传统的计算机视觉任务不同，病理诊断面临的是'十亿像素级'的挑战，单张切片包含的信息量巨大且诊断特征稀疏。在这种语境下，'看'的能力次于'决定看哪里'的能力。

规划模块代表了病理医生工作流的计算化模拟。

它不仅是数据检索机制，更是一个执行分层任务拆解的复杂决策框架。通过模仿人类专家'低倍镜扫片建立全局认知，高倍镜聚焦验证微观细节'的策略，这些 Agent 优化了计算资源的分配，并显著提升了诊断的准确性。

本文将基于 PathFinder、PathAgent、CPathAgent、GIANT 和 SurvAgent 五项开创性研究，对病理 AI Agent 规划模块的发展历程与现状进行详尽的技术剖析。

文章配图

要理解现代规划模块的架构必要性，首先必须剖析病理学领域的独特约束。

WSI 是一个多尺度的视觉环境，诊断信息呈高度稀疏分布。一个决定性的恶性微灶可能仅占切片面积的 0.01%，却承载着 100% 的诊断权重。

传统的深度学习方法，如多示例学习（Multiple Instance Learning, MIL），试图通过聚合数万个图块的特征来进行预测。然而，这种'被动感知'的方式存在显著缺陷：它难以处理极端的信噪比，缺乏对空间关系的结构化推理能力，且无法解释'为什么关注这里'。

Agent 规划模块通过将 WSI 分析视为一个'序列决策过程'（Sequential Decision-Making Process）而非静态分类问题，彻底改变了模型与数据的交互方式。Agent 采用'感知 - 规划 - 行动 - 反思'的闭环，自主决定观察路径。

规划模块的核心目标是将经过认证的病理医生的认知和运动行为'代码化'，这种行为特征表现为明显的阶段性：

全局筛选（Triage） 快速的低倍镜扫描，过滤正常组织，识别'感兴趣区域'（ROIs）。

目标导航（Navigation） 将视野移动到筛选阶段确定的特定坐标。

多尺度审视（Multi-Scale Interrogation） 动态调整放大倍率（从 2.5x 到 10x, 20x, 或 40x），以验证细胞异型性、核分裂像或核分级。

假设修正（Hypothesis Refinement） 基于初步发现调整搜索策略（例如，'我看到了腺体结构，现在需要检查是否存在浸润'）。

更多推荐文章