大语言模型的特点和能力
LLM(Large Language Model,大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务。
1.1 主要特点
架构特点
LLM 主要基于 Transformer 架构。Transformer 通过自注意力机制(Self-Attention)来捕捉文本中的长距离依赖关系,无需像循环神经网络(RNN)那样逐词递归处理,从而实现了并行计算,大大提高了训练和推理速度。
参数规模
LLM 的'大型'体现在其巨大的参数量,通常在数十亿到数千亿之间。例如,GPT-3 拥有约 1750 亿个参数,而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等,参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式,提高其泛化能力和表达复杂语言结构的能力。
预训练与微调
LLM 通常遵循'预训练 - 微调'的范式:
- 预训练:模型首先在大规模无标注文本数据(如互联网抓取的文本、书籍、百科等)上进行自我监督学习,通过自回归语言建模任务(预测下一个词的概率)或掩码语言建模任务(预测被遮蔽词语的概率)来学习语言的通用表示。
- 微调:预训练后的模型可以针对特定任务进行微调,即在特定领域的有标注数据上进一步训练,调整模型参数以适应特定任务的需求,如问答系统的回答生成、文本分类任务的标签预测等。
1.2 大语言模型六大能力
LLM 的核心能力大致分为:生成、总结、提取、分类、检索与改写六部分。
1. 生成能力
文本生成是给定输入与上下文生成新文本。生成能力是 LLM 最核心的能力。其能力的建立来源于对大量的文本进行训练,并捕捉了语言的内在联系与人类的使用模式。
- 应用:聊天助手、写作助手、知识问答助手、创意文案生成。
2. 总结能力
总结是 LLM 的重要能力。通过 Prompt Engineering,LLM 可对用户输入的文本提炼总结。在工作中我们每天会处理大量会议、报告、文章、邮件等文本内容,LLM 总结能力有助于快速获取关键信息,提升工作效率。
- 应用:在线视频会议、电话会议内容总结;私有化知识库文档总结;报告、文章、邮件等工作性文本总结。在推荐领域,还可以结合用户的历史数据、报表数据、case 排查数据,生成总结文案和优化建议。
3. 提取能力
提取文本信息是 NLP 中常见需求。LLM 有时可以提取比传统 NLP 方法更难提取的实体。利用 LLM 提取文本中的时间、地点、人物等信息,旨在将文本关键信息进行结构化表示。除此之外,还可用于提取摘录合同、法律条款中的关键信息。
- 应用:文档命名实体提取、文章关键词提取、视频标签生成。
4. 分类能力
大模型对文本内容分类的优势在于强语义理解能力与小样本学习能力。也就是说其不需要样本或需要少量样本学习即可具备强文本分类能力。而这与通过大量语料训练的垂域模型相比,在开发成本与性能上更具优势。比如,互联网社交媒体每天产生大量文本数据,商家通过分析文本数据评估对于公众对于产品的反馈,政府通过分析平台数据评估公众对于政策、事件的态度。与小模型相比,大模型在开发周期、模型性能更具优势。
- 应用:网络平台敏感内容审核(例如广告素材审核),社交媒体评论情感分析,电商平台用户评价分类。
5. 检索能力
文本检索是根据给定文本在目标文档中检索出相似文本。最常用的是搜索引擎,搜索引擎根据输入返回高度相关的内容或链接。而传统方式采用关键词匹配,只有全部或部分关键词在检索文档中命中返回目标文档。这对于检索质量是不利的,原因是对于关键词未匹配但语义高度相关的内容没有召回。在检索应用中,LLM 的优势在于能够实现语义级别匹配。LLM 语义检索可弥补传统关键词匹配检索不足,在本地知识库与搜索引擎中的语义搜文、以文搜图中存在应用价值。
- 应用:文本语义检索、图片语义检索、视频语义检索;电商产品语义检索;招聘简历语义检索。
6. 改写能力
通过 LLM 对输入文本按照要求进行润色、纠错。通过 LLM 与提示词工程(Prompt Engineering)自动对文本内容纠错。此外,还可用其对文章进行润色处理,使文章在表述上更加清晰流畅。


