LLaMA 衍生模型指的是基于 Meta 发布的 LLaMA 基础模型,通过微调、优化或扩展而产生的各类变体模型。就像 LLaMA 是一个强大的'通用大脑',而衍生模型则是针对不同语言、不同任务、不同应用场景进行'专业培训'后的'专家'。根据衍生方式的不同,可以分为两大类:LLaMA 衍生模型、官方演进版本

一、官方演进版本
LLaMA 系列本身就在持续演进,每一代都是前一代的'官方衍生版':
| 版本 | 核心升级 | 技术亮点 |
|---|---|---|
| LLaMA 1 | 开源奠基 | 13B 参数超越 GPT-3,验证'小模型 + 大数据'路线 |
| LLaMA 2 | 可商用、GQA | 上下文翻倍至 4K,引入分组查询注意力,70B 版本逼近 GPT-3.5 |
| LLaMA 3 | 15T 数据、128K 上下文 | 405B 旗舰版性能比肩 GPT-4,代码占比提升至 25% |
| LLaMA 4 | MoE 稀疏架构、多模态 | 17B 激活参数达 400B 总参数效果,原生支持图像/视频理解,1000 万上下文窗口 |
二、社区微调衍生模型
Alpaca(斯坦福):LLaMA 衍生模型的'鼻祖'。斯坦福团队用 52K 条指令数据对 7B LLaMA 进行微调,仅花费不到 600 美元就训练出媲美 GPT-3.5 的对话模型。
Alpaca-LoRA:Alpaca 的轻量级版本。使用 LoRA(低秩适应)技术,只微调模型 0.1% 的参数,在消费级显卡(如 RTX 3090)上就能运行,大幅降低部署门槛。
Vicuna(UC 伯克利):对话能力的'优等生'。在 13B LLaMA 基础上,用 ShareGPT 收集的 7 万条真实对话数据微调。在 GPT-4 辅助评估中,Vicuna-13B 达到 ChatGPT 90% 以上的质量。
2. 中文增强类
由于 LLaMA 原始词表仅 32K,中文 token 覆盖率不足 15%,直接使用中文效果很差。社区开发了多种中文增强方案:
Chinese-LLaMA(哈工大):通过扩充中文词表(从 32K 扩展至约 50K)并在中文语料上继续预训练,让 LLaMA'学会中文'。
BELLE(贝壳&人大):专注于中文指令遵循。基于 LLaMA-7B,使用百万级中文指令数据进行微调,在中文 NLP 任务上表现优异。
姜子牙(Ziya,IDEA 研究院):面向中文对话的专业选手。在 LLaMA-13B 基础上,使用大规模高质量中文对话数据微调,支持多轮对话和角色扮演。
Llama3-Chinese(社区):基于 LLaMA 3 的社区中文增强版。利用 LLaMA Factory 工具,在 LLaMA 3-8B 基础上进行中文持续预训练和指令微调。
3. 垂直领域类
Code Llama(Meta):代码生成专家。在 LLaMA 2 基础上,用 500B 代码 token 继续训练,支持 Python、Java、C++ 等数十种语言,HumanEval 得分达 53.7%。
Llama Guard(Meta):安全防护模型。专门用于检测输入/输出中的不安全内容,可充当 LLM 应用的安全防火墙。
4. 效率优化类
量化版本(GGUF/GPTQ/AWQ):社区开发了多种量化格式,让 LLaMA 能在消费级硬件上运行。例如,LLaMA-7B 的 4-bit 量化版仅需 4GB 显存,可在普通笔记本上运行。


