中文类 LLaMA 大语言模型资源整理与对比
LLaMA 可以说是近年来最受欢迎的大语言模型之一。LLaMA 的开源极大地带动了大语言模型社区的兴起,许多衍生模型例如 Vicuna、Alpaca 等应运而生。
然而,由于 LLaMA 是英文原生模型,对中文的支持较弱。因此,训练中文模型需要额外的训练和对齐工作。本文介绍了笔者在调研过程中整理的一些具有代表性的基于 LLaMA 的中文开源模型,供读者对比这些方案的异同,以便选择更加合适的模型。
背景
在 2023 年开源大模型排行榜中,LLaMA 占据了绝对的榜首地位。它使用多达 14000 亿 tokens 语料训练,以较小的模型(13B)超过了 GPT-3(175B)的性能,引起了社区的极大关注。
围绕 LLaMA 构建的 LLM 开源社区也随之兴起。其中有对话模型 Alpaca、Vicuna,推理框架 llama.cpp,训练框架 Transformers、Lightning,应用层框架 text-generation-webui、LangChain、ChatLLaMA 等都对 LLaMA 模型进行了适配。因此选用 LLaMA 模型进行二次开发,不仅有大量现成的解决方案可以参考,在应用层也有很多工具可以直接使用,这为大语言研究和落地带来了源源不断的动力。
然而,汉语作为一种世界互联网中的'小众'语言(仅占总体量约 5%),大模型构建时往往不会针对汉语进行设计。例如 ChatGPT 的汉语能力远弱于英文能力,而 LLaMA 词表中仅包含少量汉字,并且几乎没有在中文上进行训练。为了在中文上使用 LLaMA 强大的语言能力,许多研究者提出了相应的解决方案。本文主要盘点中文 LLaMA 模型,按模型发布的时间顺序进行介绍。
Chinese-LLaMA-Alpaca (2023/03/28)
由哈工大 - 科大讯飞联合实验室发布,该项目发布了基于 LoRA 训练的 7B 和 13B 中文 LLaMA 模型和指令精调的 Alpaca 模型。
其主要特点为,在 LLaMA 原版词表上,对中文进行了扩充和增量预训练,能够更加有效对中文分词。

在性能方面,由于该项目使用 LoRA 训练(仅训练模型少量参数),因此理论上性能上限低于全参数训练的模型。在目前的 SuperCLUE 琅琊榜测评中,该模型也处于靠后的位置(15 名)。
Linly (2023/03/28)
伶荔-Linly 由深圳大学 - 系统计算技术国家工程实验室发布,提供对话模型 ChatFlow、基础模型 Chinese-LLaMA。
Linly 项目的主要特点为,利用文本翻译数据,将 LLaMA 在英文上强大语言能力迁移到中文上。

为了尽可能提升模型效果,Linly 模型没有选择扩充词表,而是直接在 LLaMA 基础上全参数训练。在从头训练的 Linly-OpenLLaMA 中,在中文上训练了字词结合 tokenizer,并以 Apache 2.0 协议开源。

BELLE (2023/04/19)
由 LianjiaTech 发布包括在 LLaMA7B 基础上增量预训练扩展中文词表的模型,以及基于多样化开源数据训练后的 LLaMA-7B 模型。该项目提供以 LLaMA、BLOOM 为底座的多种中文模型以及对应训练数据。
此外,还提供详细的分析报告,首次在中文场景上分析了 LoRA、词表扩充、数据规模等变量产生的性能影响,对后续研究提供了有价值的依据。





