开源大语言模型(LLMs)盘点与架构演进
1. 大语言模型演化
自然语言处理(NLP)的发展经历了从词向量到 Transformer 架构的显著转变。在 Transformer 出现之前,以 Word2Vec 为代表的词向量模型是主流。
Word2Vec 将每个词映射为一个紧凑的低维向量,而非传统的 One-Hot 编码。谷歌在论文《Efficient Estimation of Word Representations in Vector Space》中提出了两种核心方法:
- CBOW (Continuous Bag-of-Words):利用中心词的前后上下文词来预测该中心词。
- Skip-Gram:利用中心词去预测周围的词,通过构建中心词矩阵和周围词矩阵建立关系。

Transformer 架构的出现催生了三个主要分支:
- Encoder-only 模型:以 BERT 为代表,主要用于理解任务。
- Decoder-only 模型:以 GPT 为代表,主要用于生成任务。
- Encoder-Decoder 模型:即完整的 Transformer 架构,如 GLM、ChatGLM,适用于生成与理解的结合。

各模型特点
- BERT 模型:采用掩码语言建模(Masked Language Modeling),类似于完形填空。预测时同时看到前后的词,适合文本分类、问答等理解型任务。
- GPT 模型:采用自回归生成方式,仅利用前面的词预测后面的词,难度更高,适合文本生成、对话等任务。
尽管 ChatGPT 取得了巨大成功,但其 API 封闭。Meta 等大厂提供了 OPT、BLOOM、LLaMA 等开源模型,推动了社区发展。
2. 开源 GPT 系列模型
开源社区致力于用更小的参数量逼近闭源模型效果,并优化部署体验。以下是值得关注的开源项目:
2.1 Stanford Alpaca
斯坦福大学发布的 Alpaca 模型基于 Self-Instruct 技术生成的 52K 指令数据,在 7B LLaMA 模型上进行微调。初步评估显示,Alpaca 7B 的表现接近 text-davinci-003 (GPT-3)。
2.2 ChatGLM-6B
清华系推出的 ChatGLM-6B 是基于 General Language Model (GLM) 架构的中英双语对话模型,拥有 62 亿参数。
- 量化部署:INT4 量化级别下最低仅需 6GB 显存即可运行。
- 微调支持:实现了基于 P-Tuning v2 的高效参数微调方法,INT4 量化下约 7GB 显存可启动微调。
- 训练数据:经过约 1T token 的中英双语训练,辅以监督微调、人类反馈强化学习(RLHF)等技术。
2.3 Vicuna
Vicuna 是由加州大学伯克利分校、CMU、斯坦福大学等机构联合推出的开源聊天机器人。它基于 LLaMA 和 Alpaca 项目,使用增强数据集进行训练,旨在以较低成本实现接近 GPT-4 的对话质量。

