法律领域里的 NLP：合同审查、分类和案例检索实战 | 极客日志

PythonAI写作AI大前端

法律领域里的 NLP：合同审查、分类和案例检索实战

法律 NLP 最实用的落点集中在合同分析、法律文本分类和案例检索。文中分别给出了用 BERT 做序列分类、用问答模型做案例检索的示例代码，并补充了法律文本预处理、模型训练调优、多语言处理和数据隐私等常见问题。最后用 Tkinter + Transformers 搭了一个简化版合同分析工具，强调这类项目真正的门槛通常不在模型本身，而在数据质量、任务定义和工程细节。

赛博朋克发布于 2026/6/300 浏览

法律领域里的 NLP：合同审查、分类和案例检索实战

Legal NLP Architecture

学习目标

这篇内容不追求把法律 NLP 讲成'万能解法'，重点放在几个更常见、也更容易落地的方向上：合同分析、法律文本分类、案例检索，以及这些任务背后常用的模型和处理流程。

一、法律 NLP 常见做什么

1.1 合同分析

合同分析不是简单地扫一遍文本。真正有价值的部分，通常是把条款里的风险点先捞出来，再辅助审查、起草和归档。

常见会落到这三个动作：

合同审查：识别违约责任、赔偿上限、自动续约这类风险条款。
合同起草：根据模板补全建议条款。
合同管理：做归档、检索和到期提醒。

这类任务里，BERT 做序列分类是比较顺手的起点。关键不在模型名字，而在输入怎么截断、标签怎么定义。

from transformers import BertTokenizer, BertForSequenceClassification
import torch

def analyze_contract(text, model_name='bert-base-uncased', num_labels=3):
    # 加载分词器和模型
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
    
    # 编码输入文本，注意截断和填充策略
    inputs = tokenizer(
        text, 
        return_tensors='pt', 
        max_length=512, 
        truncation=True, 
        padding=True
    )
    
    # 模型推理
    outputs = model(**inputs)
    
    # 计算分类结果概率
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    label = torch.argmax(probs, dim=-1).item()
    
    return label

1.2 法律文本分类

法律文本的分类范围很杂，可能是民事和刑事，也可能是合同法、刑法、劳动法。任务本身不复杂，难点在于标签体系经常先天不干净，边界也不总是清楚。

from transformers  BertTokenizer, BertForSequenceClassification
 torch

 ():
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
    
    inputs = tokenizer(
        text, 
        return_tensors=, 
        max_length=, 
        truncation=, 
        padding=
    )
    
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-)
    label = torch.argmax(probs, dim=-).item()
    
     label

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

from transformers import BertTokenizer, BertForQuestionAnswering
import torch

def retrieve_legal_case(query, context, model_name='nlpaueb/bert-base-uncased-contracts', max_length=512):
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForQuestionAnswering.from_pretrained(model_name)
    
    # encode_plus 用于处理问答对的拼接
    inputs = tokenizer.encode_plus(
        query, 
        context, 
        add_special_tokens=True, 
        return_tensors='pt', 
        max_length=max_length, 
        truncation=True, 
        padding='max_length'
    )
    
    outputs = model(**inputs)
    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits) + 1
    
    answer = tokenizer.convert_tokens_to_string(
        tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][answer_start:answer_end])
    )
    return answer

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import spacy

def preprocess_legal_text(text):
    # 加载轻量级英文模型
    nlp = spacy.load("en_core_web_sm")
    
    # 基础分词与去停用词
    tokens = word_tokenize(text)
    stop_words = set(stopwords.words('english'))
    tokens = [token for token in tokens if token.lower() not in stop_words and token.isalpha()]
    
    # 实体识别示例
    doc = nlp(text)
    entities = [ent.text for ent in doc.ents if ent.label_ in ['LAW', 'CASE', 'PERSON', 'ORG', 'DATE']]
    
    return tokens, entities

import openai

def generate_legal_text(text, max_tokens=100, temperature=0.7):
    # 生产环境请从环境变量读取密钥，切勿硬编码
    openai.api_key = 'YOUR_API_KEY' 
    response = openai.Completion.create(
        engine="text-davinci-003",
        prompt=text,
        max_tokens=max_tokens,
        n=1,
        stop=None,
        temperature=temperature
    )
    generated_text = response.choices[0].text.strip()
    return generated_text

pip install transformers torch tkinter

import tkinter as tk
from tkinter import scrolledtext, messagebox
from transformers import BertTokenizer, BertForSequenceClassification
import torch

class ContractAnalysisApp:
    def __init__(self, root):
        self.root = root
        self.root.title("合同智能分析助手")
        self.create_widgets()

    def create_widgets(self):
        # 输入区域
        input_frame = tk.Frame(self.root)
        input_frame.pack(pady=10, padx=10, fill="both", expand=True)
        
        self.text_input = scrolledtext.ScrolledText(input_frame, width=60, height=10)
        self.text_input.pack(pady=10, padx=10, fill="both", expand=True)
        
        btn_analyze = tk.Button(input_frame, text="开始分析", command=self.process_text)
        btn_analyze.pack(pady=10, padx=10)
        
        # 结果区域
        result_frame = tk.Frame(self.root)
        result_frame.pack(pady=10, padx=10, fill="both", expand=True)
        
        self.result_text = scrolledtext.ScrolledText(result_frame, width=60, height=5)
        self.result_text.pack(pady=10, padx=10, fill="both", expand=True)

    def process_text(self):
        text = self.text_input.get("1.0", tk.END).strip()
        if not text:
            messagebox.showwarning("警告", "请输入合同文本")
            return

        try:
            # 调用分析逻辑
            analysis_result = self.analyze_contract_logic(text)
            self.result_text.delete("1.0", tk.END)
            self.result_text.insert(tk.END, f"分析结果：{analysis_result}")
        except Exception as e:
            messagebox.showerror("错误", f"处理失败：{str(e)}")

    def analyze_contract_logic(self, text):
        # 模拟模型调用，实际请替换为真实模型加载
        # 此处仅为演示流程
        model_name = 'bert-base-uncased'
        tokenizer = BertTokenizer.from_pretrained(model_name)
        # 注意：实际运行需下载模型权重，此处省略初始化以节省篇幅
        # model = BertForSequenceClassification.from_pretrained(model_name, num_labels=3)
        
        # 模拟返回结果
        return "正常"

if __name__ == "__main__":
    root = tk.Tk()
    app = ContractAnalysisApp(root)
    root.mainloop()

法律领域里的 NLP：合同审查、分类和案例检索实战

法律领域里的 NLP：合同审查、分类和案例检索实战

学习目标

一、法律 NLP 常见做什么

1.1 合同分析

1.2 法律文本分类

更多推荐文章

相关免费在线工具

1.3 案例检索

二、做法律文本处理时，前处理比想象中重要

三、BERT 和 GPT 适合的地方不一样

四、法律场景里最麻烦的几件事

4.1 法律术语

4.2 多语言处理

4.3 数据隐私

五、一个能跑起来的合同分析小工具

5.1 需求和结构

5.2 开发环境

5.3 单文件示例

5.4 怎么跑

六、收个尾

更多推荐文章

相关免费在线工具

法律领域里的 NLP：合同审查、分类和案例检索实战

法律领域里的 NLP：合同审查、分类和案例检索实战

学习目标

一、法律 NLP 常见做什么

1.1 合同分析

1.2 法律文本分类

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 案例检索

二、做法律文本处理时，前处理比想象中重要

三、BERT 和 GPT 适合的地方不一样

四、法律场景里最麻烦的几件事

4.1 法律术语

4.2 多语言处理

4.3 数据隐私

五、一个能跑起来的合同分析小工具

5.1 需求和结构

5.2 开发环境

5.3 单文件示例

5.4 怎么跑

六、收个尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具