LLM 大模型基础与实战应用指南

1. 引言

近一年来，大语言模型（Large Language Model, LLM）成为全球科技与社会关注的焦点。公众对这类模型所蕴含的先进技术及其广泛应用有了更为深入的认知。关于 LLMs 是否应采取开源策略的话题引发了广泛的热议和深度探讨。开源社区在过去的一年中，积极推动开源模型的发展，通过开源推动模型贡献者的研究成果的透明度提升和可复制性的强化，同时激发研究者和开发者社群的集体创新潜能。

2. 主流开源模型生态概览

随着 LLM 技术的发展，中国模型研究机构的开源模型迎来了爆发式的增长。各大机构纷纷在开源社区发布具有竞争力的模型，推动了国内基于预训练 Base 模型的发展。

2.1 代表性模型系列

ChatGLM 系列：智谱 AI 发布的 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 GLM 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署。后续更新到第三代，并在多模态推出了 CogVLM 系列，以及在代码领域推出了 CodeGeex 系列模型。
百川系列：百川智能开发的百川 -7B 模型是基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。后续发布了 13B 模型以及百川 2 系列模型，同步开源 base 和 chat 两个版本。
书生·浦语系列：上海人工智能实验室联合多家机构发布的全新升级的'书生通用大模型体系'，包括书生·多模态、书生·浦语和书生·天际等三大基础模型。不仅做了模型 weights 的开源，还在模型、数据、工具和评测等层面进行全方位开源。
通义千问系列：阿里巴巴开源了通义千问 7B 模型，后续相继开源了 1.8B，14B，72B 的 base 和 chat 模型，并提供了对应的 int4 和 int8 的量化版本。在多模态场景，千问也开源了 qwen-vl 和 qwen-audio 两种视觉和语音的多模态模型，做到了'全尺寸、全模态'开源。
天工 Skywork 系列：昆仑万维发布百亿级大语言模型「天工」Skywork-13B 系列，并配套开源了超大高质量开源中文数据集 Skypile/Chinese-Web-Text-150B 数据集。
Yi 系列：01-AI 公司发布的 Yi 系列模型，其参数规模介于 60 亿至 340 亿之间，训练数据量达到了 300 亿 token，在公开排行榜中的表现优异。

2.2 行业定制模型

性能卓越的模型和行业定制模型通常需要在预训练模型上，通过数据进行多次微调得来。来自社区的贡献者通过模型微调的方式，持续在各个方向做探索，并回馈社区。

IDEA Lab 姜子牙：基于 LLaMa 的 130 亿参数的大规模预训练模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。
OpenBuddy：致力于面向全球用户提供强大的多语言聊天模型，强调对话式 AI 对英语、中文和其他语言的无缝多语言支持。
Codefuse 和 wisdomshell：专注于代码领域，希望提升开发者效率，让代码使用更加简单。
垂直领域模型：FinGLM 和通义金融模型专注在金融领域；浙江大学、北京大学等高校实验室通过微调预训练模型，推动开源模型在司法、教育、医疗、视频等领域发展。

3. LLM 类型详解

3.1 Base 模型和 Chat 模型

我们通常会看到某模型研发机构开源了 base 模型和 chat 模型，两者的区别如下：

Base 模型（基础模型）：是在海量不同文本上训练出来的预测后续文本的模型。后续文本未必是对指令和对话的响应，它更侧重于理解语言结构和概率分布。
Chat 模型（对话模型）：是在 base 基础上通过对话记录（指令 - 响应）继续做微调和强化学习，让它接受指令和用户对话时，续写出来的是遵循指令的、人类预期的 assistant 的响应内容。

3.2 多模态模型

多模态 LLM 将文本和其他模态的信息结合起来，比如图像、视频、音频和其他感官数据。多模态 LLM 接受了多种类型的数据训练，有助于 transformer 找到不同模态之间的关系，完成一些新的 LLM 不能完成的任务，比如图片描述，音乐解读，视频理解等。

3.3 Agent 模型