中文类 LLaMA 大语言模型资源整理与对比
LLaMA 可以说是近年来最受欢迎的大语言模型之一。LLaMA 的开源极大地带动了大语言模型社区的兴起,许多衍生模型例如 Vicuna、Alpaca 等应运而生。
本文整理了基于 LLaMA 的中文开源大语言模型资源,涵盖 Chinese-LLaMA-Alpaca、Linly、BELLE、Ziya-LLaMA 及 BiLLa 五个代表性项目。文章详细对比了各模型在训练方式(LoRA 与全参数)、词表策略(扩充与不扩充)、应用场景侧重(通用对话与推理能力)等方面的差异。通过分析各方案的优缺点,为开发者根据硬件资源与业务需求选择合适的中文 LLaMA 模型提供了参考依据。

LLaMA 可以说是近年来最受欢迎的大语言模型之一。LLaMA 的开源极大地带动了大语言模型社区的兴起,许多衍生模型例如 Vicuna、Alpaca 等应运而生。
然而,由于 LLaMA 是英文原生模型,对中文的支持较弱。因此,训练中文模型需要额外的训练和对齐工作。本文介绍了笔者在调研过程中整理的一些具有代表性的基于 LLaMA 的中文开源模型,供读者对比这些方案的异同,以便选择更加合适的模型。
在 2023 年开源大模型排行榜中,LLaMA 占据了绝对的榜首地位。它使用多达 14000 亿 tokens 语料训练,以较小的模型(13B)超过了 GPT-3(175B)的性能,引起了社区的极大关注。
围绕 LLaMA 构建的 LLM 开源社区也随之兴起。其中有对话模型 Alpaca、Vicuna,推理框架 llama.cpp,训练框架 Transformers、Lightning,应用层框架 text-generation-webui、LangChain、ChatLLaMA 等都对 LLaMA 模型进行了适配。因此选用 LLaMA 模型进行二次开发,不仅有大量现成的解决方案可以参考,在应用层也有很多工具可以直接使用,这为大语言研究和落地带来了源源不断的动力。
然而,汉语作为一种世界互联网中的'小众'语言(仅占总体量约 5%),大模型构建时往往不会针对汉语进行设计。例如 ChatGPT 的汉语能力远弱于英文能力,而 LLaMA 词表中仅包含少量汉字,并且几乎没有在中文上进行训练。为了在中文上使用 LLaMA 强大的语言能力,许多研究者提出了相应的解决方案。本文主要盘点中文 LLaMA 模型,按模型发布的时间顺序进行介绍。
由哈工大 - 科大讯飞联合实验室发布,该项目发布了基于 LoRA 训练的 7B 和 13B 中文 LLaMA 模型和指令精调的 Alpaca 模型。
其主要特点为,在 LLaMA 原版词表上,对中文进行了扩充和增量预训练,能够更加有效对中文分词。

在性能方面,由于该项目使用 LoRA 训练(仅训练模型少量参数),因此理论上性能上限低于全参数训练的模型。在目前的 SuperCLUE 琅琊榜测评中,该模型也处于靠后的位置(15 名)。
伶荔-Linly 由深圳大学 - 系统计算技术国家工程实验室发布,提供对话模型 ChatFlow、基础模型 Chinese-LLaMA。
Linly 项目的主要特点为,利用文本翻译数据,将 LLaMA 在英文上强大语言能力迁移到中文上。

为了尽可能提升模型效果,Linly 模型没有选择扩充词表,而是直接在 LLaMA 基础上全参数训练。在从头训练的 Linly-OpenLLaMA 中,在中文上训练了字词结合 tokenizer,并以 Apache 2.0 协议开源。

由 LianjiaTech 发布包括在 LLaMA7B 基础上增量预训练扩展中文词表的模型,以及基于多样化开源数据训练后的 LLaMA-7B 模型。该项目提供以 LLaMA、BLOOM 为底座的多种中文模型以及对应训练数据。
此外,还提供详细的分析报告,首次在中文场景上分析了 LoRA、词表扩充、数据规模等变量产生的性能影响,对后续研究提供了有价值的依据。

IDEA 研究院发布的姜子牙通用大模型(Ziya-LLaMA-13B-v1),基于 LLaMA-13B 扩充中文词表,进行千亿 token 量级的预训练,使模型具备中文能力。再经过 500 万条多任务样本的有监督微调 (SFT) 和人类反馈训练(RM+PPO+HFFT+COHFT+RBRS) 获得对话能力。

与模型一同提供的还有一个评估集。评估集包括常识类问答、推理、自然语言理解任务、数学、写作、代码、翻译、角色扮演 9 大类任务,32 个子类,共计 185 个问题。

推理能力增强的中英双语 LLaMA 模型。主要特点为:

实验结果表明,该项目确实强化了模型的推理能力,但是牺牲了其他方向的性能,例如常识类、强知识类、时事类的问题,更像是牺牲了模型原来内化的知识,来增强了推理能力。
通过对上述五个主流中文 LLaMA 模型的梳理,我们可以从以下几个维度进行选型参考:
综上所述,选择中文 LLaMA 模型时,应优先考虑具体的业务需求(如是否需要强推理能力)、硬件资源限制(是否支持全参数微调)以及对中文分词的敏感度。随着社区的发展,未来可能会有更多融合上述优点的混合方案出现。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online