中文类 LLaMA 大语言模型资源整理与对比

LLaMA 可以说是近年来最受欢迎的大语言模型之一。LLaMA 的开源极大地带动了大语言模型社区的兴起，许多衍生模型例如 Vicuna、Alpaca 等应运而生。

然而，由于 LLaMA 是英文原生模型，对中文的支持较弱。因此，训练中文模型需要额外的训练和对齐工作。本文介绍了笔者在调研过程中整理的一些具有代表性的基于 LLaMA 的中文开源模型，供读者对比这些方案的异同，以便选择更加合适的模型。

背景

在 2023 年开源大模型排行榜中，LLaMA 占据了绝对的榜首地位。它使用多达 14000 亿 tokens 语料训练，以较小的模型（13B）超过了 GPT-3（175B）的性能，引起了社区的极大关注。

围绕 LLaMA 构建的 LLM 开源社区也随之兴起。其中有对话模型 Alpaca、Vicuna，推理框架 llama.cpp，训练框架 Transformers、Lightning，应用层框架 text-generation-webui、LangChain、ChatLLaMA 等都对 LLaMA 模型进行了适配。因此选用 LLaMA 模型进行二次开发，不仅有大量现成的解决方案可以参考，在应用层也有很多工具可以直接使用，这为大语言研究和落地带来了源源不断的动力。

然而，汉语作为一种世界互联网中的'小众'语言（仅占总体量约 5%），大模型构建时往往不会针对汉语进行设计。例如 ChatGPT 的汉语能力远弱于英文能力，而 LLaMA 词表中仅包含少量汉字，并且几乎没有在中文上进行训练。为了在中文上使用 LLaMA 强大的语言能力，许多研究者提出了相应的解决方案。本文主要盘点中文 LLaMA 模型，按模型发布的时间顺序进行介绍。

Chinese-LLaMA-Alpaca (2023/03/28)

由哈工大 - 科大讯飞联合实验室发布，该项目发布了基于 LoRA 训练的 7B 和 13B 中文 LLaMA 模型和指令精调的 Alpaca 模型。

其主要特点为，在 LLaMA 原版词表上，对中文进行了扩充和增量预训练，能够更加有效对中文分词。

中文 LLaMA 模型词表扩充示例

在性能方面，由于该项目使用 LoRA 训练（仅训练模型少量参数），因此理论上性能上限低于全参数训练的模型。在目前的 SuperCLUE 琅琊榜测评中，该模型也处于靠后的位置（15 名）。

Linly (2023/03/28)

伶荔-Linly 由深圳大学 - 系统计算技术国家工程实验室发布，提供对话模型 ChatFlow、基础模型 Chinese-LLaMA。

Linly 项目的主要特点为，利用文本翻译数据，将 LLaMA 在英文上强大语言能力迁移到中文上。

Linly 模型架构示意

为了尽可能提升模型效果，Linly 模型没有选择扩充词表，而是直接在 LLaMA 基础上全参数训练。在从头训练的 Linly-OpenLLaMA 中，在中文上训练了字词结合 tokenizer，并以 Apache 2.0 协议开源。

Linly Tokenizer 结构

BELLE (2023/04/19)

由 LianjiaTech 发布包括在 LLaMA7B 基础上增量预训练扩展中文词表的模型，以及基于多样化开源数据训练后的 LLaMA-7B 模型。该项目提供以 LLaMA、BLOOM 为底座的多种中文模型以及对应训练数据。

此外，还提供详细的分析报告，首次在中文场景上分析了 LoRA、词表扩充、数据规模等变量产生的性能影响，对后续研究提供了有价值的依据。

BELLE 模型分析图表

中文类 LLaMA 大语言模型资源整理与对比