使用 Python 和向量数据库构建实时患者信息管理系统

使用 Python 和向量数据库构建实时患者信息管理系统 | 极客日志

{
  "patient_id": "P001234",
  "name": "张三",
  "age": 58,
  "gender": "男",
  "symptoms": "发热、咳嗽、乏力，伴胸闷气短",
  "lab_results": {
    "blood_pressure": "145/90",
    "heart_rate": 102,
    "blood_sugar": 7.8,
    "temperature": 38.5
  },
  "timestamp": "2025-04-07T14:30:00Z"
}

数据库	类型	特点	适用场景
FAISS	本地库	仅向量索引，不支持元数据存储和过滤，需自行管理	纯向量检索，高吞吐
Chroma	本地/嵌入式	轻量级，支持元数据存储和过滤，API 简洁，集成方便	中小规模，快速原型
Milvus	分布式	企业级，支持高可用、水平扩展，功能全面	大规模生产环境
Weaviate	云/本地	支持 GraphQL 查询，内置向量化和模块化	需要灵活查询和混合搜索
Pinecone	云服务	全托管，无需运维，但可能产生费用	快速上线，不想自建基础设施

┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│  数据源     │ ──> │  嵌入服务   │ ──> │  向量数据库   │
│ (手动/流式) │     │(sentence- │     │ (Chroma)    │
└─────────────┘     │ transformers)│     └─────────────┘
                    └─────────────┘
                        ▲
                        │
                        │
└───────────┬───────────┘
            │
┌───────────┴───────────┐
│  查询接口             │
│ (Python 函数)         │
└───────────────────────┘

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate
pip install chromadb sentence-transformers numpy pandas

import chromadb
from chromadb.config import Settings

# 持久化目录
PERSIST_DIRECTORY = "./chroma_patient_db"

# 初始化客户端
client = chromadb.Client(Settings(
    chroma_db_impl="duckdb+parquet",
    persist_directory=PERSIST_DIRECTORY,
    anonymized_telemetry=False  # 关闭匿名数据收集
))

# 创建或获取集合
COLLECTION_NAME = "patients"
existing_collections = client.list_collections()
if COLLECTION_NAME not in [col.name for col in existing_collections]:
    collection = client.create_collection(name=COLLECTION_NAME)
else:
    collection = client.get_collection(COLLECTION_NAME)

from dataclasses import dataclass, asdict
from typing import Dict, Any

@dataclass
class Patient:
    patient_id: str
    name: str
    age: int
    gender: str
    symptoms: str
    lab_results: Dict[str, float]  # 如 {"blood_pressure_sys": 145, ...}
    timestamp: str  # ISO 格式

    def to_embedding_text(self) -> str:
        """生成用于嵌入的文本，包含关键信息"""
        lab_text = ", ".join([f"{k}:{v}" for k, v in self.lab_results.items()])
        return f"患者姓名：{self.name}，性别：{self.gender}，年龄：{self.age}，症状：{self.symptoms}，检查结果：{lab_text}，时间：{self.timestamp}"

    def to_metadata(self) -> Dict[str, Any]:
        """生成存储在 Chroma 中的元数据字段（用于过滤）"""
        meta = {
            "patient_id": self.patient_id,
            "age": self.age,
            "gender": self.gender,
            "timestamp": self.timestamp,
        }
        # 将 lab_results 展平，方便过滤，例如 blood_pressure_sys, blood_pressure_dia
        for k, v in self.lab_results.items():
            meta[k] = v
        return meta

from sentence_transformers import SentenceTransformer
from typing import List

class Embedder:
    def __init__(self, model_name: str='all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def encode(self, texts: List[str]) -> List[List[float]]:
        """将文本列表转换为向量列表"""
        embeddings = self.model.encode(texts, convert_to_numpy=True)
        return embeddings.tolist()

    def encode_one(self, text: str) -> List[float]:
        return self.encode([text])[0]

# 全局嵌入器实例（可单例）
embedder = Embedder()

class PatientVectorDB:
    def __init__(self, collection, embedder):
        self.collection = collection
        self.embedder = embedder

    def upsert_patient(self, patient: Patient):
        """插入或更新患者信息"""
        # 生成嵌入文本并向量化
        text = patient.to_embedding_text()
        embedding = self.embedder.encode_one(text)
        # 准备元数据
        metadata = patient.to_metadata()
        # 使用 upsert：如果 patient_id 已存在，则更新；否则插入
        self.collection.upsert(
            ids=[patient.patient_id],
            embeddings=[embedding],
            metadatas=[metadata],
            documents=[text]  # 可选，存储原始文本便于查看
        )
        print(f"Upserted patient {patient.patient_id}")

    def delete_patient(self, patient_id: str):
        """根据 patient_id 删除患者记录"""
        self.collection.delete(ids=[patient_id])
        print(f"Deleted patient {patient_id}")

    def get_patient(self, patient_id: str) -> Dict[str, Any]:
        """根据 patient_id 查询患者详细信息（返回元数据）"""
        result = self.collection.get(ids=[patient_id])
        if result and result['metadatas']:
            return result['metadatas'][0]
        else:
            return None

    def search_similar(self, query_text: str, n_results: int = 5, where: Dict = None) -> List[Dict]:
        """ 语义搜索相似病例
        :param query_text: 查询文本（如症状描述）
        :param n_results: 返回结果数量
        :param where: 过滤条件，例如 {"age": {"$gt": 50}}
        :return: 匹配的患者元数据列表
        """
        query_emb = self.embedder.encode_one(query_text)
        results = self.collection.query(
            query_embeddings=[query_emb],
            n_results=n_results,
            where=where
        )
        # 解析结果
        metadatas = results['metadatas'][0]  # 第一个查询的结果
        distances = results['distances'][0]  # 距离（越小越相似）
        # 可合并距离返回
        output = []
        for meta, dist in zip(metadatas, distances):
            output.append({
                "patient_id": meta.get("patient_id"),
                "metadata": meta,
                "similarity_score": 1 - dist  # 转换为相似度（0-1，越大越相似）
            })
        return output

# 创建几个患者实例
patient1 = Patient(
    patient_id="P001", name="张三", age=45, gender="男",
    symptoms="发热、咳嗽、乏力，体温 38.5 度",
    lab_results={"bp_sys": 130, "bp_dia": 85, "heart_rate": 90, "blood_sugar": 6.2, "temperature": 38.5},
    timestamp="2025-04-07T10:00:00Z"
)
patient2 = Patient(
    patient_id="P002", name="李四", age=62, gender="男",
    symptoms="胸闷、气短、心悸，偶有胸痛",
    lab_results={"bp_sys": 150, "bp_dia": 95, "heart_rate": 110, "blood_sugar": 7.0, "temperature": 36.8},
    timestamp="2025-04-07T11:20:00Z"
)
patient3 = Patient(
    patient_id="P003", name="王芳", age=34, gender="女",
    symptoms="头痛、恶心、视力模糊",
    lab_results={"bp_sys": 120, "bp_dia": 80, "heart_rate": 75, "blood_sugar": 5.1, "temperature": 36.5},
    timestamp="2025-04-06T09:15:00Z"
)

# 初始化数据库操作对象
db = PatientVectorDB(collection, embedder)

# 插入患者
db.upsert_patient(patient1)
db.upsert_patient(patient2)
db.upsert_patient(patient3)

# 查询相似病例
query = "反复咳嗽伴发热"
results = db.search_similar(query, n_results=2)
print("相似病例搜索结果：")
for r in results:
    print(f"患者 ID: {r['patient_id']}, 相似度：{r['similarity_score']:.3f}, 症状：{r['metadata']['symptoms']}")

相似病例搜索结果：
患者 ID: P001, 相似度：0.923, 症状：发热、咳嗽、乏力，体温 38.5 度
患者 ID: P002, 相似度：0.456, 症状：胸闷、气短、心悸，偶有胸痛

# 更新患者 P001
patient1_updated = Patient(
    patient_id="P001", name="张三", age=45, gender="男",
    symptoms="咳嗽，少量白痰，无发热",
    lab_results={"bp_sys": 125, "bp_dia": 80, "heart_rate": 80, "blood_sugar": 6.0, "temperature": 36.6},
    timestamp="2025-04-08T09:00:00Z"
)
db.upsert_patient(patient1_updated)

# 再次搜索'咳嗽'
results = db.search_similar("咳嗽", n_results=3)
print("更新后相似病例：")
for r in results:
    print(f"患者 ID: {r['patient_id']}, 症状：{r['metadata']['symptoms']}")

# 查询文本：胸闷
query = "胸闷"
# 过滤条件：年龄 > 60
where = {"age": {"$gt": 60}}
results = db.search_similar(query, n_results=5, where=where)
print("年龄>60 且症状类似胸闷的病例：")
for r in results:
    print(f"患者 ID: {r['patient_id']}, 年龄：{r['metadata']['age']}, 症状：{r['metadata']['symptoms']}")

db.delete_patient("P003")

pip install redis aioredis

import redis
import json
import time
import random

r = redis.Redis(host='localhost', port=6379, decode_responses=True)
while True:
    # 模拟患者 ID 和数据
    patient_id = random.choice(["P001", "P002", "P003"])
    data = {
        "patient_id": patient_id,
        "timestamp": time.strftime("%Y-%m-%dT%H:%M:%SZ", time.gmtime()),
        "lab_results": {
            "heart_rate": random.randint(60, 120),
            "bp_sys": random.randint(110, 160),
            "bp_dia": random.randint(70, 100)
        }
    }
    # 发送到 Redis Stream "patient_updates"
    r.xadd("patient_updates", {"data": json.dumps(data)})
    time.sleep(0.5)  # 每 0.5 秒发送一次

import asyncio
import aioredis
import json
from your_implementation import db, embedder, Patient  # 假设已导入之前的模块

async def process_message(data_json: str):
    """处理单条消息，更新对应患者"""
    data = json.loads(data_json)
    patient_id = data["patient_id"]
    # 从数据库获取该患者的现有信息（假设我们存储了部分静态信息，如 name, age, gender）
    # 为了简化，我们假设通过 get_patient 能获取最近一次存储的完整信息
    existing = db.get_patient(patient_id)
    if not existing:
        print(f"患者 {patient_id} 不存在，无法更新")
        return
    # 更新 lab_results 和时间戳
    # 注意：existing 中包含之前的所有元数据，但可能缺少某些字段，我们需要重构一个 Patient 对象
    # 在实际中，可能需要额外的存储来保留完整信息，此处仅作示例
    updated_lab = existing.copy()
    # 更新数值字段
    for k, v in data["lab_results"].items():
        updated_lab[k] = v
    # 创建新的 Patient 对象
    patient = Patient(
        patient_id=patient_id,
        name=existing.get("name", ""),
        age=existing.get("age", 0),
        gender=existing.get("gender", ""),
        symptoms=existing.get("symptoms", ""),  # 症状可能不变
        lab_results={k: v for k, v in updated_lab.items() if k in ["heart_rate", "bp_sys", "bp_dia", "blood_sugar", "temperature"]},
        timestamp=data["timestamp"]
    )
    # 重新嵌入并更新数据库
    db.upsert_patient(patient)
    print(f"已更新患者 {patient_id}")

async def consumer():
    redis_conn = await aioredis.from_url("redis://localhost")
    stream = "patient_updates"
    last_id = "$"  # 从最新消息开始消费
    while True:
        # 阻塞读取新消息
        messages = await redis_conn.xread({stream: last_id}, block=1000)
        for msg_stream, msg_list in messages:
            for msg_id, msg_data in msg_list:
                data_json = msg_data[b'data'].decode()
                await process_message(data_json)
                last_id = msg_id  # 更新最后消费的 ID

if __name__ == "__main__":
    asyncio.run(consumer())

collection = client.create_collection(
    name="patients",
    metadata={"hnsw:space": "cosine", "hnsw:construction_ef": 200, "hnsw:M": 32}
)

# 假设有 patients 列表
ids = [p.patient_id for p in patients]
embeddings = [embedder.encode_one(p.to_embedding_text()) for p in patients]
metadatas = [p.to_metadata() for p in patients]
documents = [p.to_embedding_text() for p in patients]
collection.add(
    ids=ids,
    embeddings=embeddings,
    metadatas=metadatas,
    documents=documents
)

使用 Python 和向量数据库构建实时患者信息管理系统

1. 引言

2. 向量数据库基础

2.1 什么是向量数据库？

2.2 向量嵌入（Embeddings）

2.3 相似性搜索算法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 需求分析

3.1 数据结构

3.2 功能需求

3.3 性能需求

3.4 安全与隐私

4. 技术选型

4.1 向量数据库选择

4.2 嵌入模型

4.3 其他工具

5. 系统设计与架构

5.1 整体架构

5.2 模块划分

6. 详细实现步骤

6.1 环境搭建

6.2 初始化 Chroma 客户端和集合

6.3 定义数据模型

6.4 嵌入模块

6.5 数据库操作封装

6.6 示例数据准备与测试

6.7 实时更新

6.8 混合过滤查询

6.9 删除记录

7. 扩展：实时流式更新

7.1 架构设计

7.2 使用 Redis Stream 实现简单流处理

7.3 性能优化

8. 优化与性能调优

8.1 索引选择

8.2 批量插入

8.3 缓存策略

8.4 分布式部署

9. 安全与隐私保护

9.1 数据加密

9.2 访问控制

9.3 审计日志

9.4 合规性建议

10. 实际应用场景案例

10.1 辅助诊断

10.2 临床研究

10.3 实时监控与预警

11. 总结与展望

12. 附录：完整代码清单

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具