LLaMA 衍生模型,就是基于 Meta 发布的 LLaMA 基础模型,经过微调、优化或扩展搞出来的一大堆变体。这里面有两类:一类是 Meta 自己推的官方新版本,另一类是社区用各种手段折腾出来的定制模型。

官方演进版本
每一代 LLaMA 都比前一代有实打实的升级:
| 版本 | 核心升级 | 技术亮点 |
|---|---|---|
| LLaMA 1 | 开源奠基 | 13B 参数就能超越 GPT-3,证明了小模型靠数据也能打 |
| LLaMA 2 | 可商用、GQA | 上下文窗口翻倍到 4K,引入分组查询注意力,70B 版本接近 GPT-3.5 |
| LLaMA 3 | 15T 数据、128K 上下文 | 405B 旗舰版直接对标 GPT-4,代码数据占比拉到 25% |
| LLaMA 4 | MoE 稀疏架构、多模态 | 17B 激活参数就能达到 400B 总参数的效果,原生支持图像/视频理解,上下文窗口夸张到 1000 万 |
社区微调衍生模型
早期经典
Alpaca(斯坦福) 算是这类模型的元老了。团队用 52K 条指令数据在 7B LLaMA 上微调,成本不到 600 美元,搞出一个对话质量和 GPT-3.5 差不多的东西。
Alpaca-LoRA 是 Alpaca 的轻量版,用了 LoRA 技术,只动模型 0.1% 的参数,消费级显卡(比如 RTX 3090)就能跑,部署门槛直接降了一大截。
Vicuna(UC 伯克利) 在对话能力上花了不少心思。基于 13B LLaMA,用 ShareGPT 搜集的 7 万条真实对话微调。用 GPT-4 当裁判去评,Vicuna-13B 能拿到 ChatGPT 90% 以上的质量分数。
中文增强类
LLaMA 原始词表只有 32K,中文 token 覆盖率不到 15%,直接拿来用中文效果很差。社区搞了好几种方案来补这个短板:
Chinese-LLaMA(哈工大):扩充中文词表(从 32K 扩到约 50K),然后在中文语料上继续预训练,把 LLaMA 的'中文能力'硬拉上去。
BELLE(贝壳&人大):专攻中文指令跟随。在 LLaMA-7B 基础上,用百万级中文指令数据微调,中文 NLP 任务上表现很亮眼。
姜子牙(Ziya,IDEA 研究院):面向中文对话的专业版。基于 LLaMA-13B,喂了大量高质量中文对话数据,多轮对话和角色扮演都支持得不错。
Llama3-Chinese(社区):基于 LLaMA 3 的社区中文增强版。用 LLaMA Factory 工具,在 LLaMA 3-8B 上继续做中文预训练和指令微调。
垂直领域类
Code Llama(Meta):专注代码生成。在 LLaMA 2 基础上,用 500B 代码 token 继续训练,Python、Java、C++ 等几十种语言都能搞,HumanEval 得分 53.7%。
Llama Guard(Meta):安全防护模型,专门检查输入输出里有没有不安全内容,可以给 LLM 应用当防火墙用。
效率优化类
量化版本(GGUF/GPTQ/AWQ):社区搞出了多种量化格式,让 LLaMA 在消费级硬件上跑起来。比如 LLaMA-7B 的 4-bit 量化版只要 4GB 显存,普通笔记本都能带得动。
Unsloth 优化版:从底层内核做优化,微调速度能提 2-5 倍,显存占用也能砍掉一半以上。


