大模型在传统 NLP 文本分类任务中的应用实践

综述由AI生成探讨了大模型在传统 NLP 文本分类任务中的多种应用方式，对比了纯 Prompt 工程、指令微调（SFT）以及 BERT 式微调的效果。实验基于金融新闻事件分类数据集，结果显示纯 Prompt 工程效果不如传统 BERT 模型；结合 LoRA 的 BERT 式微调在 Qwen 1.8B 模型上取得了最佳精度，尤其在小样本类别表现优异。文章提供了具体的训练流程、参数配置及多 LoRA 部署策略，为大模型落地提供实践参考。

不知所云发布于 2025/2/6更新于 2026/6/217 浏览

探讨 | 大模型在传统 NLP 任务的使用姿势

以 ChatGPT 为起始节点的大模型技术经过了两年左右的发展，大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究，主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛，企图将大模型的基础能力（包括推理能力）上限逐步提升到更高的层次。当然也有一些研究机构致力于改进 Transformer 的架构或者提出其他更先进的基础模型结构，在性能或者效率上做文章，例如 MoE、Mamba 等；多模态模型，让大模型同时能够理解并生成图像、音频、视频、文字等多种模态的信息，例如 Sora。

其次是大模型的微调对齐研究，主要是基座大模型通过指令微调、强化学习等技术将其变成一个应用友好、用户友好的能力模型，也可以将模型长文本、长上下文能力的提升也包含在该方向内；另外，还有大模型的高效部署和推理计算，在降低大模型服务成本的同时，提升大模型服务的实时性，提升用户体验；最后，则是大模型在各种细分场景领域的应用落地，能够将大模型封装成一个成熟的应用产品，真正的将大模型用起来，当然也可以将 Agent 相关的技术研究归纳在这个方向上，因为 Agent 的目标就是将大模型的能力充分利用起来，帮助人类更好地使用大模型。

本人目前主要精力集中在大模型的应用落地，对大模型在传统 NLP 应用任务上的效果非常感兴趣。借着这个机会，我对大模型在文本分类任务上的应用方式和对应效果进行了研究，有了一些初步的结论。本文希望通过描述上述研究过程与结果，总结出大模型在文本分类任务上的最佳实践，并推广到更多类似的应用上，为业界做大模型应用时提供一些落地的参考。

应用场景分类

在谈具体的研究内容前，需要先明确一下研究的问题类型。目前对于可能会应用到大模型的传统 NLP 应用，我自己将其分为两种不同的情况：

开荒式业务场景。这种场景主要出现在那些刚刚完成数字化还未进行智能化的机构、或者业务场景本身比较复杂、传统技术无法在该场景中匹配最低的用户使用体验要求的情况。特点：数据积累不成熟（也就是没有足够的训练语料用于场景专用模型的训练）、硬件资源不足（没有足够的 GPU 用于训练模型）等。
优化提升式业务场景。这种场景主要出现在那些已经有一定智能化基础的机构、或者业务场景中已经使用了一些传统 NLP 技术解决了部分问题的情况。特点：需要提升已有方法的应用效果和用户体验（如准确率、召回率等），当前方法继续优化的难度较大。

本文主要讨论的是第二种场景，这也是很多有一定数字化、智能化基础的公司比较关注的类型。他们在大模型提出之前，已经通过一些规则、统计机器学习、深度神经网络等算法模型技术构建了一些分类服务，有些行业头部团队在此基础上通过一些技巧（数据增强，对抗训练等）进行了优化，将算法指标提升到了某个瓶颈线。然而，业务用户对于算法的精度提升要求是持续性的，因此在大模型出现之前的一段时间，算法人员疲于应付业务用户对于场景效果的高要求。

只用 Prompt 工程足够吗？

截止 2024 年，我浏览过很多应用大模型研究传统 NLP 任务的工作，大多集中在如何利用 Prompt 技术、Few-shot 技术等直接将大模型应用在这些传统任务中。例如 Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT，通过 Prompt 工程对比 ChatGPT 与 Fine-tuned Roberta 在 GLUE 数据集上的效果，最终的结论是 Fine-tuned Roberta 在文本理解任务上仍然无法被超越。

然而我也看到有一些观点认为这些传统任务直接用大模型一把梭就能搞定，只要 Prompt 写的足够好，就能得到一个足够好的语言理解分析服务。本人并不反对这种观点，而且还支持对过去的一些应用模式进行革新，从而让大模型能够充分发挥其特性。不过在目前的阶段，很多企业或者业务场景基于安全、成本、时延等因素，无法使用综合能力强的模型（GPT4，国内模型的付费版公有云服务、超过 14B 的开源模型等），而通过纯 Prompt 工程使用类似 7B 的模型还无法完全替代已经在足量数据上训练过的 BERT 类模型。

由于上述提到的研究是使用 ChatGPT 以及英文的数据集，为了验证国内开源的大模型是否在中文数据集上是否也有类似的结论，下面我将根据相关的目标应用场景以一个具体的数据集的实验来说明。

应用场景与数据集

目标应用场景：新闻事件分类任务。任务特点：

多标签分类任务，即一个新闻可能会对应多个事件类别；
事件标签体系庞大，且有比较严重的类别不均衡问题。出现频次高的类别容易累积训练数据，而低频长尾类别属于典型的小样本问题。

由于一些原因，不能拿到相关真实场景数据，因此搜寻了网上的公开数据集，最终找到了一个比较贴近上述任务特点的数据集：CKKS 2022 任务八数据集。

数据链接见：https://tianchi.aliyun.com/dataset/136800

数据集简介：数据主要来自金融领域的公开新闻、报道，数量在 5 万 + 左右。原始数据集的任务是'给定 100+ 事件类型及其事件主体公司，训练数据中对其中 16 个事件类型只保留 10 条左右的训练样本，测试集中包含这 16 个类型的大量待抽取样本。'

大模型在传统 NLP 文本分类任务中的应用实践

探讨 | 大模型在传统 NLP 任务的使用姿势

应用场景分类

只用 Prompt 工程足够吗？

应用场景与数据集

更多推荐文章

相关免费在线工具

基于 BERT 的 Baseline

基于 Prompt 工程的 LLM 方法

引入 Few-shot sample

示例样本填充顺序重要吗？

结果

Prompt 工程 + 指令微调

方法描述

结果

大模型 + BERT 式微调

方法描述

结果

结论是否适用其他分类任务？

结论适用于其他参数量的模型吗？

应用落地的'新姿势'

小结

更多推荐文章

相关免费在线工具

大模型在传统 NLP 文本分类任务中的应用实践

探讨 | 大模型在传统 NLP 任务的使用姿势

应用场景分类

只用 Prompt 工程足够吗？

应用场景与数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基于 BERT 的 Baseline

基于 Prompt 工程的 LLM 方法

引入 Few-shot sample

示例样本填充顺序重要吗？

结果

Prompt 工程 + 指令微调

方法描述

结果

大模型 + BERT 式微调

方法描述

结果

结论是否适用其他分类任务？

结论适用于其他参数量的模型吗？

应用落地的'新姿势'

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具