医疗 AI 可信系统全栈实现：向量索引与贝叶斯网络

医疗 AI 可信系统构建需关注向量索引清洗、检索证据过滤及结构化表示的价值。通过文档切分与索引写入示例，展示数据预处理流程；强调分诊与药物任务中来源过滤的重要性。核心部分利用贝叶斯网络表示诊断状态，以胸痛场景为例，说明后验概率计算如何替代单一结论，结合风险阈值与 Agent 路由提升系统决策可靠性。

心动瞬间发布于 2026/4/7更新于 2026/7/642 浏览

文章配图

9.3 向量索引构建示例

文档进入向量库前，通常需要先经过清洗、切分、打标签和嵌入处理。下面展示一个最简流程，真实环境中可以替换为 Milvus 或 Qdrant SDK。

from dataclasses import dataclass
from typing import Iterable
import hashlib

@dataclass
class Chunk:
    chunk_id: str
    text: str
    metadata: dict

def chunk_document(doc_id: str, title: str, text: str, source_type: str) -> list[Chunk]:
    # 按段落切分，过滤空行
    parts = [p.strip() for p in text.split("\n\n") if p.strip()]
    chunks = []
    for i, part in enumerate(parts):
        # 生成唯一 ID，避免冲突
        cid = hashlib.md5(f"{doc_id}-{i}-{part[:100]}".encode()).hexdigest()
        chunks.append(
            Chunk(
                chunk_id=cid,
                text=f"[{title}]\n{part}",
                metadata={"doc_id": doc_id, "source_type": source_type, "seq": i},
            )
        )
     chunks

 ():
    rows = []
     c  chunks:
        vec = embed_fn(c.text)
        
        rows.append({: c.chunk_id, : vec, : c.metadata | {: c.text}})
    store.upsert(rows)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from pgmpy.models import BayesianNetwork
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination

model = BayesianNetwork([
    ("age_risk", "mi"),
    ("st_elevation", "mi"),
    ("troponin_high", "mi"),
    ("d_dimer_high", "pe"),
    ("tachycardia", "pe"),
    ("mi", "chest_pain"),
    ("pe", "chest_pain"),
])

cpd_age = TabularCPD("age_risk", 2, [[0.6], [0.4]])
cpd_st = TabularCPD("st_elevation", 2, [[0.85], [0.15]])
cpd_trop = TabularCPD("troponin_high", 2, [[0.8], [0.2]])
cpd_dd = TabularCPD("d_dimer_high", 2, [[0.7], [0.3]])
cpd_tachy = TabularCPD("tachycardia", 2, [[0.75], [0.25]])

cpd_mi = TabularCPD(
    "mi", 2,
    values=[
        [0.99, 0.85, 0.80, 0.30, 0.40, 0.10, 0.08, 0.01],
        [0.01, 0.15, 0.20, 0.70, 0.60, 0.90, 0.92, 0.99],
    ],
    evidence=["age_risk", "st_elevation", "troponin_high"],
    evidence_card=[2, 2, 2]
)

cpd_pe = TabularCPD(
    "pe", 2,
    values=[
        [0.97, 0.70, 0.50, 0.10],
        [0.03, 0.30, 0.50, 0.90],
    ],
    evidence=["d_dimer_high", "tachycardia"],
    evidence_card=[2, 2]
)

# 将 CPD 加入模型
model.add_cpds(cpd_age, cpd_st, cpd_trop, cpd_dd, cpd_tachy, cpd_mi, cpd_pe)

# 验证模型有效性
assert model.check_model()

# 进行推断
infer = VariableElimination(model)
query = infer.query(variables=["mi", "pe"], evidence={"age_risk": 1, "st_elevation": 1})
print(query)

医疗 AI 可信系统全栈实现：向量索引与贝叶斯网络

9.3 向量索引构建示例

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

更多推荐文章

相关免费在线工具

医疗 AI 可信系统全栈实现：向量索引与贝叶斯网络

9.3 向量索引构建示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具