LLaMA 衍生模型详解：官方演进与社区微调

LLaMA 衍生模型基于 Meta 发布的 LLaMA 基础模型，通过微调或扩展产生。分为官方演进版本（如 LLaMA 1-4）和社区微调版本（如 Alpaca、Vicuna、中文增强版及垂直领域模型）。其流行源于开源商用许可及完善的工具链。用户可通过在线试用、本地运行或自行微调等方式体验。

怪力乱神发布于 2026/4/5更新于 2026/5/2637 浏览

LLaMA 衍生模型指的是基于 Meta 发布的 LLaMA 基础模型，通过微调、优化或扩展而产生的各类变体模型。就像 LLaMA 是一个强大的'通用大脑'，而衍生模型则是针对不同语言、不同任务、不同应用场景进行'专业培训'后的'专家'。根据衍生方式的不同，可以分为两大类：LLaMA 衍生模型、官方演进版本

文章配图

一、官方演进版本

LLaMA 系列本身就在持续演进，每一代都是前一代的'官方衍生版'：

版本	核心升级	技术亮点
LLaMA 1	开源奠基	13B 参数超越 GPT-3，验证'小模型 + 大数据'路线
LLaMA 2	可商用、GQA	上下文翻倍至 4K，引入分组查询注意力，70B 版本逼近 GPT-3.5
LLaMA 3	15T 数据、128K 上下文	405B 旗舰版性能比肩 GPT-4，代码占比提升至 25%
LLaMA 4	MoE 稀疏架构、多模态	17B 激活参数达 400B 总参数效果，原生支持图像/视频理解，1000 万上下文窗口

二、社区微调衍生模型

Alpaca（斯坦福）：LLaMA 衍生模型的'鼻祖'。斯坦福团队用 52K 条指令数据对 7B LLaMA 进行微调，仅花费不到 600 美元就训练出媲美 GPT-3.5 的对话模型。

Alpaca-LoRA：Alpaca 的轻量级版本。使用 LoRA（低秩适应）技术，只微调模型 0.1% 的参数，在消费级显卡（如 RTX 3090）上就能运行，大幅降低部署门槛。

Vicuna（UC 伯克利）：对话能力的'优等生'。在 13B LLaMA 基础上，用 ShareGPT 收集的 7 万条真实对话数据微调。在 GPT-4 辅助评估中，Vicuna-13B 达到 ChatGPT 90% 以上的质量。

2. 中文增强类

由于 LLaMA 原始词表仅 32K，中文 token 覆盖率不足 15%，直接使用中文效果很差。社区开发了多种中文增强方案：

Chinese-LLaMA（哈工大）：通过扩充中文词表（从 32K 扩展至约 50K）并在中文语料上继续预训练，让 LLaMA'学会中文'。

BELLE（贝壳&人大）：专注于中文指令遵循。基于 LLaMA-7B，使用百万级中文指令数据进行微调，在中文 NLP 任务上表现优异。

姜子牙（Ziya，IDEA 研究院）：面向中文对话的专业选手。在 LLaMA-13B 基础上，使用大规模高质量中文对话数据微调，支持多轮对话和角色扮演。

Llama3-Chinese（社区）：基于 LLaMA 3 的社区中文增强版。利用 LLaMA Factory 工具，在 LLaMA 3-8B 基础上进行中文持续预训练和指令微调。

3. 垂直领域类

Code Llama（Meta）：代码生成专家。在 LLaMA 2 基础上，用 500B 代码 token 继续训练，支持 Python、Java、C++ 等数十种语言，HumanEval 得分达 53.7%。

Llama Guard（Meta）：安全防护模型。专门用于检测输入/输出中的不安全内容，可充当 LLM 应用的安全防火墙。

4. 效率优化类

量化版本（GGUF/GPTQ/AWQ）：社区开发了多种量化格式，让 LLaMA 能在消费级硬件上运行。例如，LLaMA-7B 的 4-bit 量化版仅需 4GB 显存，可在普通笔记本上运行。

文章配图

一、官方演进版本

LLaMA 系列本身就在持续演进，每一代都是前一代的'官方衍生版'：

版本	核心升级	技术亮点
LLaMA 1	开源奠基	13B 参数超越 GPT-3，验证'小模型 + 大数据'路线
LLaMA 2	可商用、GQA	上下文翻倍至 4K，引入分组查询注意力，70B 版本逼近 GPT-3.5
LLaMA 3	15T 数据、128K 上下文	405B 旗舰版性能比肩 GPT-4，代码占比提升至 25%
LLaMA 4	MoE 稀疏架构、多模态	17B 激活参数达 400B 总参数效果，原生支持图像/视频理解，1000 万上下文窗口

二、社区微调衍生模型

Alpaca（斯坦福）：LLaMA 衍生模型的'鼻祖'。斯坦福团队用 52K 条指令数据对 7B LLaMA 进行微调，仅花费不到 600 美元就训练出媲美 GPT-3.5 的对话模型。

Alpaca-LoRA：Alpaca 的轻量级版本。使用 LoRA（低秩适应）技术，只微调模型 0.1% 的参数，在消费级显卡（如 RTX 3090）上就能运行，大幅降低部署门槛。

2. 中文增强类

由于 LLaMA 原始词表仅 32K，中文 token 覆盖率不足 15%，直接使用中文效果很差。社区开发了多种中文增强方案：

Chinese-LLaMA（哈工大）：通过扩充中文词表（从 32K 扩展至约 50K）并在中文语料上继续预训练，让 LLaMA'学会中文'。

BELLE（贝壳&人大）：专注于中文指令遵循。基于 LLaMA-7B，使用百万级中文指令数据进行微调，在中文 NLP 任务上表现优异。

姜子牙（Ziya，IDEA 研究院）：面向中文对话的专业选手。在 LLaMA-13B 基础上，使用大规模高质量中文对话数据微调，支持多轮对话和角色扮演。

Llama3-Chinese（社区）：基于 LLaMA 3 的社区中文增强版。利用 LLaMA Factory 工具，在 LLaMA 3-8B 基础上进行中文持续预训练和指令微调。

3. 垂直领域类

Code Llama（Meta）：代码生成专家。在 LLaMA 2 基础上，用 500B 代码 token 继续训练，支持 Python、Java、C++ 等数十种语言，HumanEval 得分达 53.7%。

Llama Guard（Meta）：安全防护模型。专门用于检测输入/输出中的不安全内容，可充当 LLM 应用的安全防火墙。

LLaMA 衍生模型详解：官方演进与社区微调

一、官方演进版本

二、社区微调衍生模型

2. 中文增强类

3. 垂直领域类

4. 效率优化类

LLaMA 衍生模型详解：官方演进与社区微调

一、官方演进版本

二、社区微调衍生模型

2. 中文增强类

3. 垂直领域类

4. 效率优化类

更多推荐文章

相关免费在线工具

三、生态优势

四、体验方式

总结

更多推荐文章

相关免费在线工具

LLaMA 衍生模型详解：官方演进与社区微调

一、官方演进版本

二、社区微调衍生模型

2. 中文增强类

3. 垂直领域类

4. 效率优化类

LLaMA 衍生模型详解：官方演进与社区微调

一、官方演进版本

二、社区微调衍生模型

2. 中文增强类

3. 垂直领域类

4. 效率优化类

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、生态优势

四、体验方式

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具