当 AI Agent 学会说'我不知道'

在医疗场景下,AI 系统的竞争焦点正从单纯的文本生成能力,转向对'不确定性'的量化与约束。大语言模型擅长整合文档与解释逻辑,却往往在证据不足时过度自信。引入贝叶斯网络与增强方法,本质上是为系统装上'认知刹车',确保在必要时将决策权交还给人类专家。
工程落地需要一套明确的角色分工:LLM 负责读写与工具编排,向量数据库承担证据召回,贝叶斯层处理后验更新与风险路由,治理层则把控权限与审计。以下是一套基于 Python 的全栈实现路径参考。
推荐技术栈总览
| 层级 | 推荐组件 | 作用 | 说明 |
|---|---|---|---|
| 服务层 | FastAPI / Pydantic / uvicorn | API、契约校验、实时服务 | 适合医院内网与微服务拆分 |
| 数据层 | PostgreSQL / Redis / MinIO | 审计、缓存、对象存储 | 关系数据与日志管理清晰 |
| 向量层 | Milvus / Qdrant / pgvector / cuVS | 证据召回与 ANN 搜索 | 根据规模与 GPU 条件选择 |
| 推理层 | pgmpy / PyMC / NumPyro | 贝叶斯网络与不确定性量化 | 服务高风险任务路由 |
| 模型层 | Nemotron / TensorRT-LLM / NIM | 本地推理与优化部署 | 适合私有化与高吞吐 |
| 编排层 | LangGraph / Ray / Celery | 多 Agent 编排与异步任务 | 需限制高风险场景权限 |
向量数据库与检索引擎选型建议
在实际项目中,向量库的选择直接影响证据召回的精度与延迟。我们对比了主流方案的特点:
| 方案 | 规模适配 | 优势 | 局限 |
|---|---|---|---|
| Milvus | 大规模集群 | 高性能、云原生支持好 | 运维复杂度较高 |
| Qdrant | 中小规模 |


