开源大语言模型（LLMs）盘点与架构演进

1. 大语言模型演化

自然语言处理（NLP）的发展经历了从词向量到 Transformer 架构的显著转变。在 Transformer 出现之前，以 Word2Vec 为代表的词向量模型是主流。

Word2Vec 将每个词映射为一个紧凑的低维向量，而非传统的 One-Hot 编码。谷歌在论文《Efficient Estimation of Word Representations in Vector Space》中提出了两种核心方法：

CBOW (Continuous Bag-of-Words)：利用中心词的前后上下文词来预测该中心词。
Skip-Gram：利用中心词去预测周围的词，通过构建中心词矩阵和周围词矩阵建立关系。

LLM Evolution Diagram

Transformer 架构的出现催生了三个主要分支：

Encoder-only 模型：以 BERT 为代表，主要用于理解任务。
Decoder-only 模型：以 GPT 为代表，主要用于生成任务。
Encoder-Decoder 模型：即完整的 Transformer 架构，如 GLM、ChatGLM，适用于生成与理解的结合。

Model Architecture Comparison

各模型特点

BERT 模型：采用掩码语言建模（Masked Language Modeling），类似于完形填空。预测时同时看到前后的词，适合文本分类、问答等理解型任务。
GPT 模型：采用自回归生成方式，仅利用前面的词预测后面的词，难度更高，适合文本生成、对话等任务。

尽管 ChatGPT 取得了巨大成功，但其 API 封闭。Meta 等大厂提供了 OPT、BLOOM、LLaMA 等开源模型，推动了社区发展。

2. 开源 GPT 系列模型

开源社区致力于用更小的参数量逼近闭源模型效果，并优化部署体验。以下是值得关注的开源项目：

2.1 Stanford Alpaca

斯坦福大学发布的 Alpaca 模型基于 Self-Instruct 技术生成的 52K 指令数据，在 7B LLaMA 模型上进行微调。初步评估显示，Alpaca 7B 的表现接近 text-davinci-003 (GPT-3)。

2.2 ChatGLM-6B

清华系推出的 ChatGLM-6B 是基于 General Language Model (GLM) 架构的中英双语对话模型，拥有 62 亿参数。

量化部署：INT4 量化级别下最低仅需 6GB 显存即可运行。
微调支持：实现了基于 P-Tuning v2 的高效参数微调方法，INT4 量化下约 7GB 显存可启动微调。
训练数据：经过约 1T token 的中英双语训练，辅以监督微调、人类反馈强化学习（RLHF）等技术。

2.3 Vicuna

Vicuna 是由加州大学伯克利分校、CMU、斯坦福大学等机构联合推出的开源聊天机器人。它基于 LLaMA 和 Alpaca 项目，使用增强数据集进行训练，旨在以较低成本实现接近 GPT-4 的对话质量。

开源大语言模型（LLMs）盘点与架构演进