LLaMA 衍生模型一览：官方迭代与社区微调生态

LLaMA 衍生模型，就是基于 Meta 发布的 LLaMA 基础模型，经过微调、优化或扩展搞出来的一大堆变体。这里面有两类：一类是 Meta 自己推的官方新版本，另一类是社区用各种手段折腾出来的定制模型。

文章配图

官方演进版本

每一代 LLaMA 都比前一代有实打实的升级：

版本	核心升级	技术亮点
LLaMA 1	开源奠基	13B 参数就能超越 GPT-3，证明了小模型靠数据也能打
LLaMA 2	可商用、GQA	上下文窗口翻倍到 4K，引入分组查询注意力，70B 版本接近 GPT-3.5
LLaMA 3	15T 数据、128K 上下文	405B 旗舰版直接对标 GPT-4，代码数据占比拉到 25%
LLaMA 4	MoE 稀疏架构、多模态	17B 激活参数就能达到 400B 总参数的效果，原生支持图像/视频理解，上下文窗口夸张到 1000 万

社区微调衍生模型

早期经典

Alpaca（斯坦福） 算是这类模型的元老了。团队用 52K 条指令数据在 7B LLaMA 上微调，成本不到 600 美元，搞出一个对话质量和 GPT-3.5 差不多的东西。

Alpaca-LoRA 是 Alpaca 的轻量版，用了 LoRA 技术，只动模型 0.1% 的参数，消费级显卡（比如 RTX 3090）就能跑，部署门槛直接降了一大截。

Vicuna（UC 伯克利） 在对话能力上花了不少心思。基于 13B LLaMA，用 ShareGPT 搜集的 7 万条真实对话微调。用 GPT-4 当裁判去评，Vicuna-13B 能拿到 ChatGPT 90% 以上的质量分数。

中文增强类

LLaMA 原始词表只有 32K，中文 token 覆盖率不到 15%，直接拿来用中文效果很差。社区搞了好几种方案来补这个短板：

Chinese-LLaMA（哈工大）：扩充中文词表（从 32K 扩到约 50K），然后在中文语料上继续预训练，把 LLaMA 的'中文能力'硬拉上去。

BELLE（贝壳&人大）：专攻中文指令跟随。在 LLaMA-7B 基础上，用百万级中文指令数据微调，中文 NLP 任务上表现很亮眼。

姜子牙（Ziya，IDEA 研究院）：面向中文对话的专业版。基于 LLaMA-13B，喂了大量高质量中文对话数据，多轮对话和角色扮演都支持得不错。

Llama3-Chinese（社区）：基于 LLaMA 3 的社区中文增强版。用 LLaMA Factory 工具，在 LLaMA 3-8B 上继续做中文预训练和指令微调。

垂直领域类

Code Llama（Meta）：专注代码生成。在 LLaMA 2 基础上，用 500B 代码 token 继续训练，Python、Java、C++ 等几十种语言都能搞，HumanEval 得分 53.7%。

Llama Guard（Meta）：安全防护模型，专门检查输入输出里有没有不安全内容，可以给 LLM 应用当防火墙用。

效率优化类

量化版本（GGUF/GPTQ/AWQ）：社区搞出了多种量化格式，让 LLaMA 在消费级硬件上跑起来。比如 LLaMA-7B 的 4-bit 量化版只要 4GB 显存，普通笔记本都能带得动。

Unsloth 优化版：从底层内核做优化，微调速度能提 2-5 倍，显存占用也能砍掉一半以上。

LLaMA 衍生模型一览：官方迭代与社区微调生态

官方演进版本

社区微调衍生模型

早期经典

中文增强类

垂直领域类

效率优化类

更多推荐文章

相关免费在线工具

为什么 LLaMA 能成'万模之源'？

怎么上手？

更多推荐文章

相关免费在线工具

LLaMA 衍生模型一览：官方迭代与社区微调生态

官方演进版本

社区微调衍生模型

早期经典

中文增强类

垂直领域类

效率优化类

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

为什么 LLaMA 能成'万模之源'？

怎么上手？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具