医疗 AI 可信系统全栈实现（二）：向量索引与贝叶斯网络

综述由AI生成介绍医疗 AI 可信系统的构建流程，涵盖文档清洗切分、向量索引写入、检索后证据过滤及结构化表示的价值。核心算法部分展示了如何使用贝叶斯网络表示诊断状态，通过 pgmpy 库定义胸痛场景下的概率模型，强调结论应为一组后验概率而非单一文本，为 Agent 路由提供依据。

Kubernet发布于 2026/4/6更新于 2026/5/2331 浏览

文章配图

9.3 向量索引构建示例

文档进入向量库前，应先清洗、切分、打标签、嵌入，再写入索引。以下示例展示一种最简流程，真实环境中可替换为 Milvus 或 Qdrant SDK。

代码清单 9-2 文档切分与索引写入

from dataclasses import dataclass
from typing import Iterable
import hashlib

@dataclass
class Chunk:
    chunk_id: str
    text: str
    metadata: dict

def chunk_document(doc_id: str, title: str, text: str, source_type: str) -> list[Chunk]:
    parts = [p.strip() for p in text.split("\n\n") if p.strip()]
    chunks = []
    for i, part in enumerate(parts):
        cid = hashlib.md5(f"{doc_id}-{i}-{part[:100]}".encode()).hexdigest()
        chunks.append(
            Chunk(
                chunk_id=cid,
                text=f"[{title}]\n{part}",
                metadata={"doc_id": doc_id, "source_type": source_type, "seq": i},
            )
        )
    return chunks

 ():
    rows = []
     c  chunks:
        vec = embed_fn(c.text)
        rows.append({: c.chunk_id, : vec, : c.metadata | {: c.text}})
    store.upsert(rows)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from pgmpy.models import BayesianNetwork
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination

model = BayesianNetwork([
    ("age_risk", "mi"),
    ("st_elevation", "mi"),
    ("troponin_high", "mi"),
    ("d_dimer_high", "pe"),
    ("tachycardia", "pe"),
    ("mi", "chest_pain"),
    ("pe", "chest_pain"),
])

cpd_age = TabularCPD("age_risk", 2, [[0.6], [0.4]])
cpd_st = TabularCPD("st_elevation", 2, [[0.85], [0.15]])
cpd_trop = TabularCPD("troponin_high", 2, [[0.8], [0.2]])
cpd_dd = TabularCPD("d_dimer_high", 2, [[0.7], [0.3]])
cpd_tachy = TabularCPD("tachycardia", 2, [[0.75], [0.25]])

cpd_mi = TabularCPD(
    "mi", 2,
    values=[
        [0.99, 0.85, 0.80, 0.30, 0.40, 0.10, 0.08, 0.01],
        [0.01, 0.15, 0.20, 0.70, 0.60, 0.90, 0.92, 0.99],
    ],
    evidence=["age_risk", "st_elevation", "troponin_high"],
    evidence_card=[2, 2, 2]
)

cpd_pe = TabularCPD(
    "pe", 2,
    values=[
        [0.97, 0.70, 0.50, 0.10],
        [0.03, 0.30, 0.50, 0.90],
    ]
)

医疗 AI 可信系统全栈实现（二）：向量索引与贝叶斯网络

9.3 向量索引构建示例

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

更多推荐文章

相关免费在线工具

医疗 AI 可信系统全栈实现（二）：向量索引与贝叶斯网络

9.3 向量索引构建示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具