自然语言处理在医疗领域的应用与实战

NLP 医疗应用示意图

自然语言处理（NLP）正在深刻改变医疗行业的工作方式。从电子病历的结构化提取，到辅助诊断的文本分类，再到面向患者的智能问答，技术落地场景日益丰富。本文将深入探讨这些核心应用场景，解析 BERT、GPT-3 等前沿模型的实际用法，并通过一个完整的 Python 实战项目，带你从零构建电子病历分析系统。

核心应用场景

电子病历分析

电子病历分析旨在从非结构化的文本中提取关键信息。这不仅能自动生成病历摘要，还能辅助医生进行症状识别和疾病分类，甚至优化患者管理流程。

在实际开发中，我们通常利用预训练模型对文本进行编码和分类。以下是一个基于 Hugging Face Transformers 库的示例，展示了如何加载 BERT 模型并处理输入文本：

from transformers import BertTokenizer, BertForSequenceClassification
import torch

def analyze_medical_record(text, model_name='bert-base-uncased', num_labels=3):
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
    
    # 编码输入文本，注意截断和填充策略
    inputs = tokenizer(text, return_tensors='pt', max_length=512, truncation=True, padding=True)
    outputs = model(**inputs)
    
    # 计算分类结果
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    label = torch.argmax(probs, dim=-1).item()
    return label

医学文本分类

除了病历分析，医学文本分类也是高频需求。无论是疾病归类、症状识别还是药物分类，都需要模型具备较强的领域理解能力。这里推荐使用专门针对临床文本微调过的模型，例如 emilyalsentzer/Bio_ClinicalBERT。

from transformers import BertTokenizer, BertForSequenceClassification
import torch

def classify_medical_text(text, model_name=, num_labels=):
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
    
    inputs = tokenizer(text, return_tensors=, max_length=, truncation=, padding=)
    outputs = model(**inputs)
    
    probs = torch.nn.functional.softmax(outputs.logits, dim=-)
    label = torch.argmax(probs, dim=-).item()
     label

import tkinter as tk from tkinter import scrolledtext, messagebox from transformers import BertTokenizer, BertForSequenceClassification import torch class MedicalRecordInputFrame(tk.Frame): def __init__(self, parent, on_process): super().__init__(parent) self.on_process = on_process self.create_widgets() def create_widgets(self): self.text_input = scrolledtext.ScrolledText(self, width=60, height=10) self.text_input.pack(pady=10, padx=10, fill="both", expand=True) tk.Button(self, text="分析", command=self.process_text).pack(pady=10, padx=10) def process_text(self): text = self.text_input.get("1.0", tk.END).strip() if text: self.on_process(text) else: messagebox.showwarning("警告", "请输入电子病历") class ResultFrame(tk.Frame): def __init__(self, parent): super().__init__(parent) self.create_widgets() def create_widgets(self): self.result_text = scrolledtext.ScrolledText(self, width=60, height=5) self.result_text.pack(pady=10, padx=10, fill="both", expand=True) def display_result(self, result): self.result_text.delete("1.0", tk.END) self.result_text.insert(tk.END, result) def analyze_medical_record(text, model_name='bert-base-uncased', num_labels=3): tokenizer = BertTokenizer.from_pretrained(model_name) model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels) inputs = tokenizer(text, return_tensors='pt', max_length=512, truncation=True, padding=True) outputs = model(**inputs) probs = torch.nn.functional.softmax(outputs.logits, dim=-1) label = torch.argmax(probs, dim=-1).item() return label class MedicalRecordAnalysisApp: def __init__(self, root): self.root = root self.root.title("电子病历分析应用") self.create_widgets() def create_widgets(self): self.medical_record_input_frame = MedicalRecordInputFrame(self.root, self.process_text) self.medical_record_input_frame.pack(pady=10, padx=10, fill="both", expand=True) self.result_frame = ResultFrame(self.root) self.result_frame.pack(pady=10, padx=10, fill="both", expand=True) def process_text(self, text): try: analysis = analyze_medical_record(text) if analysis == 0: result = "正常" elif analysis == 1: result = "异常" else: result = "需要进一步检查" self.result_frame.display_result(result) except Exception as e: messagebox.showerror("错误", f"处理失败：{str(e)}") if __name__ == "__main__": root = tk.Tk() app = MedicalRecordAnalysisApp(root) root.mainloop()

自然语言处理在医疗领域的应用与实战