面向法律领域的大模型微调与应用

中文智慧法律大模型 LawLLM 基于 Baichuan-13B-Base 全参数微调，具备法律文本处理、推理及检索增强能力。通过监督微调和检索增强两个阶段训练，利用法律三段论重构指令数据。在 LawBench 基准测试中，Zero-shot 表现优于 GPT-3.5-Turbo，Few-shot 仅次于该模型。此外，探讨了长文本信息抽取应用，在裁判文书处理上表现优异，虽受限于上下文窗口但效果显著。未来将优化位置编码与上下文处理以提升长文本能力。

随缘发布于 2025/2/7更新于 2026/7/2046 浏览

摘要： 近年来，大语言模型在多个自然语言处理任务上展现出了出色的能力，为智慧法律系统的发展带来巨大的帮助。现有法律领域的大模型，通过微调通用大模型能够实现利用法律知识进行简单的问题回答，即大多以法律咨询问答为主，没有考虑到法律领域的其他使用场景，如法律信息抽取、判决预测等，而真实世界中的法律服务要比对话服务复杂得多。提出中文法律智慧大模型 LawLLM，该模型可以面向不同用户群体，提供多样的法律服务。同时，探究了针对法律领域裁判文书的长文本信息抽取的应用。LawLLM 在 Lawbench 上的 Zero-shot 的平均表现超过了所有对比的大模型，均值比具有 175×10^9 个参数的 GPT-3.5-Turbo 高 0.19%，LawLLM 在 Lawbench 上的 Few-shot 的平均表现仅次于 GPT-3.5-Turbo，相比其低 0.02%。

关键词： 大语言模型; 智慧法律; 自然语言处理

面向法律领域的大模型微调与应用

0 引言

随着法律人工智能的兴起，自动化的法律任务，例如法律信息抽取、互动论点对提取、类似案例检索、法律问答、判决预测等任务，可以减轻法律从业者繁重的文书工作负担，提高工作效率和准确性。

由于法律知识的专业性和法律任务的多样性，在先前的智慧法律系统中，研究人员通常为每个特定的法律任务设计专门的算法或模型，面临研发成本高、集成难度大等困难。近年来，大语言模型（large language model，LLM，以下简称大模型）在多个传统自然语言处理任务上展现出了出色的表现，为实现统一框架的智慧法律系统提供了技术支持、提高了可能性。

开发一个能同时处理多种法律任务的智慧法律系统具有非常重要的应用价值。一方面，它可以提高法律相关专业人士的工作效率。法律信息抽取、类似案例检索等任务是法官、律师的常见任务，它们涉及对大量文档或案例的分析，通常需要耗费大量的人力和时间来完成，智慧法律模型通过自动化完成这些过程，可以帮助专业人士快速准确地获取所需信息，节省时间和精力。另一方面，它可以简化普通人获取法律服务的程序。通常情况下，人们在获取法律咨询服务时，需要先通过烦琐的流程来寻找合适的法律专业人员，然后再安排会面或电话咨询。智慧法律模型可以简化上述流程，直接为用户提供相关信息和建议。

除此之外，研究智慧法律模型的长文本处理能力也非常具有实际应用的价值。在实际应用中，法律文本（如裁判文书），通常是长文本甚至超长文本，法官等法律专业人士需要从这些文本中抽取和归类关键信息。尽管现有的大模型在各种自然语言处理任务中有非常好的表现，但通常仅限于处理上下文窗口大小范围内的文本。

1 研究现状

1.1 自然语言处理在智慧法律领域的应用

Zhong 等研究了自然语言处理（natural language processing，NLP）在智慧法律系统中的应用，讨论了智慧法律的历史、现况和未来的研究方向。该篇文章介绍了 5 种在司法领域的 NLP 任务和 4 个司法数据集，任务包括司法信息抽取、司法要素识别、司法判决预测、司法类案检索、司法考试问答，并总结出了智慧法律系统应用的两大类 NLP 方法，分别是知识驱动的基于符号的方法（symbol-based-method）、数据驱动的基于词向量的方法（embedding-based-method）。

知识驱动的基于符号的方法主要用于关系抽取、事件时间线抽取、要素识别等任务；数据驱动的基于词向量的方法主要用于通用法律概念的词向量建模、法律知识图谱建模、预训练语言模型建模等。这两类 NLP 方法应用到法律文本摘要、类似案例匹配、法律知识咨询、罪名刑期预测等下游任务，对于每个任务需要分别设计和训练一个专有的模型。

1.2 法律大语言模型的研究现状

自 OpenAI 的 ChatGPT 模型发布以来，研究人员开发了很多通用基座模型，在英文领域中能力较强的有 LLaMa 系列，在中文领域中能力较强的有 Baichuan 系列、ChatGLM 系列等。截至 2024 年 3 月，依然有新的基座模型被发布，这些基座模型基本以 Transformer 结构为主，结合指令微调（instruction tuning），基于人类反馈的强化学习（reinforcement learning from human feedback，RLHF）等技术，在通用领域具备了非常强大的能力。

考虑到领域内知识的专业性，基于这些基座模型，研究人员又开发了垂直领域的大模型，在医疗、金融、教育、法律领域都有涉及。现有法律领域的大模型，通过微调通用大模型能够利用法律知识进行简单的问题回答，即大多以法律咨询问答为主，没有考虑到法律领域的其他使用场景，如法律信息抽取、判决预测等，然而真实世界中的法律服务要比对话复杂得多。现有法律领域的大模型有 LawGPT、Lawyer-LLaMa、LexiLaw、ChatLaw 等。LawGPT 是一系列基于中文法律知识的开源大模型，该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上做法律领域专有词表扩充、大规模中文法律语料预训练，并在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升模型对法律内容的理解和执行能力。Lawyer LLaMA 在大规模法律语料上进行了继续预训练（continual pretraining），并借助 ChatGPT 收集了一批对中国国家统一法律职业资格考试客观题的分析和对法律咨询的回答，利用收集到的数据对模型进行指令微调，让模型习得将法律知识应用到具体场景中的能力。LexiLaw 基于 ChatGLM-6B 架构，通过在法律领域的数据集上进行微调，使其在提供法律咨询和支持方面具备更高的性能和专业性。ChatLaw 法律大模型开源版本的底座基于姜子牙 -13B、Anima-33B，使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。