医疗 AI 可信革命全栈实现：向量索引与贝叶斯网络

医疗 AI 可信系统构建需经过文档清洗、切分、嵌入及索引写入流程。检索结果应进行版本、来源和任务过滤，避免直接输入 LLM。结构化表示能改变 Agent 认知方式，接入概率图模型。核心算法部分展示了贝叶斯网络在胸痛诊断中的应用，通过 pgmpy 定义节点关系与条件概率表，输出后验概率而非单一结论。

清心发布于 2026/4/7更新于 2026/7/1942 浏览

文章配图

9.3 向量索引构建示例

文档进入向量库前，应先清洗、切分、打标签、嵌入，再写入索引。以下示例展示一种最简流程，真实环境中可替换为 Milvus 或 Qdrant SDK。

代码清单 9-2 文档切分与索引写入

from dataclasses import dataclass
from typing import Iterable
import hashlib

@dataclass
class Chunk:
    chunk_id: str
    text: str
    metadata: dict

def chunk_document(doc_id: str, title: str, text: str, source_type: str) -> list[Chunk]:
    parts = [p.strip() for p in text.split("\n\n") if p.strip()]
    chunks = []
    for i, part in enumerate(parts):
        cid = hashlib.md5(f"{doc_id}-{i}-{part[:100]}".encode()).hexdigest()
        chunks.append(
            Chunk(
                chunk_id=cid,
                text=f"[{title}]\n{part}",
                metadata={"doc_id": doc_id, "source_type": source_type, "seq": i},
            )
        )
    return chunks

 ():
    rows = []
     c  chunks:
        vec = embed_fn(c.text)
        rows.append({: c.chunk_id, : vec, : c.metadata | {: c.text}})
    store.upsert(rows)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from pgmpy.models import BayesianNetwork
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination

model = BayesianNetwork([
    ("age_risk", "mi"),
    ("st_elevation", "mi"),
    ("troponin_high", "mi"),
    ("d_dimer_high", "pe"),
    ("tachycardia", "pe"),
    ("mi", "chest_pain"),
    ("pe", "chest_pain"),
])

cpd_age = TabularCPD("age_risk", 2, [[0.6], [0.4]])
cpd_st = TabularCPD("st_elevation", 2, [[0.85], [0.15]])
cpd_trop = TabularCPD("troponin_high", 2, [[0.8], [0.2]])
cpd_dd = TabularCPD("d_dimer_high", 2, [[0.7], [0.3]])
cpd_tachy = TabularCPD("tachycardia", 2, [[0.75], [0.25]])

cpd_mi = TabularCPD(
    "mi", 2,
    values=[
        [0.99, 0.85, 0.80, 0.30, 0.40, 0.10, 0.08, 0.01],
        [0.01, 0.15, 0.20, 0.70, 0.60, 0.90, 0.92, 0.99],
    ],
    evidence=["age_risk", "st_elevation", "troponin_high"],
    evidence_card=[2, 2, 2]
)

cpd_pe = TabularCPD(
    "pe", 2,
    values=[
        [0.97, 0.70, 0.50, 0.10],
        [0.03, 0.30, 0.50, 0.90],
    ],
    # 原文截断
)
# 后续代码省略

医疗 AI 可信革命全栈实现：向量索引与贝叶斯网络

9.3 向量索引构建示例

代码清单 9-2 文档切分与索引写入

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

代码清单 10-1 pgmpy 定义诊断网络

更多推荐文章

相关免费在线工具

医疗 AI 可信革命全栈实现：向量索引与贝叶斯网络

9.3 向量索引构建示例

代码清单 9-2 文档切分与索引写入

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

9.4 检索后的证据过滤

9.5 结构化表示的真正价值

10 核心算法与代码实现（二）：贝叶斯网络、风险阈值与 Agent 路由

10.1 用贝叶斯网络表示诊断状态

代码清单 10-1 pgmpy 定义诊断网络

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具