跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

LLaMA 大模型开源论文阅读笔记

综述由AI生成阅读了 LLaMA 论文,介绍了首个完全开源且效果媲美闭源的大语言模型。该系列模型参数量从 7B 到 65B,使用 1.4 万亿 tokens 的纯开源数据训练。核心优化包括 RMSNorm 预归一化、SwiGLU 激活函数和 RoPE 位置编码。实验表明 13B 模型优于 GPT-3,65B 模型达到当时最佳水平。此外还涵盖了预训练数据构成、架构细节、优化器选择及指令微调效果等内容。

SparkGeek发布于 2026/4/6更新于 2026/5/2022 浏览

论文:https://arxiv.org/pdf/2302.13971

研究背景与动机

之前的效果模型要么不开源,要么用了私有数据训练,完全开源的效果都不理想。

研究方法

使用完全开源的数据(1.4 万亿 tokens),并没有构建过大的模型(7B 到 65B),做了一系列优化,如 RMSNorm 的 Pre-normalization 减少计算量,FFN 的激活函数替换为 SwiGLU 增强表现能力,旋转位置编码 RoPE 提升模型长度外推性。这些优化基本都成了后续大模型设计的标配。

主要发现

算是首个完全开源且效果和闭源模型相当的 LLM 模型,候选 qwen 也是基于这个模型改进得到的。

摘要

发布 LLaMA 系列模型,参数量从 7B 到 65B 量级,训练数据在 1.5 万亿 tokens,且全是开源的数据,13B 参数量的比 175B 的 GPT-3 性能还要好,65B 的模型达到当前最好的大语言模型效果。

1 引言

在算力固定的情况下,小模型 + 大数据比大模型 + 小数据效果更好,而且小模型 + 大数据可能训练时间很长,但是推理时长比较短。

2 方案

2.1 预训练数据

全是开源数据,大部分都是其他 LLM 训练用的数据。

  • 英文爬虫获取数据(67%)。预处理之前别人通过爬虫获得的(2017-2020)文献,但做了以下处理:1)数据去重。2)用 fastText 线性分类器区分是否英文数据,把非英文的踢掉。3)ngram 语言模型滤除内容质量低下的数据。4)训练了一个分类器区分是否来自维基百科数据,把非维基百科的数据丢弃掉。
  • C4 数据(15%)。预处理包括去重以及去非英文数据。
  • github 数据(4.5%)。去重,去低质量数据。
  • Wiki 百科(4.5%)。2022 年 1 月 -2022 年的数据。把超链接、评论、及废话去掉。
  • Gutenberg and Books3 [4.5%]。来自书本的语料库,也做了去重。
  • ArXiv [2.5%]。移除文章第一节前的所有内容,包括作者信息也被移除。
  • Stack Exchange [2%]。有高质量问答数据的网站,类似 stackoverflow。

分词器:BPE。 最终获得共计 1.4T(1.4 万亿)个训练 tokens,大多数训练数据只会被训练一次,除了维基百科和书本里的数据训练了两次。

2.2 架构

基于 Transformer 架构,并混合了后续模型提出的各种优化方法。包括:

  • Pre-normalization [GPT3]。使用 RMSNorm 在 transformer 子层输入之前先做归一化,而不是像标准的 transformer 一样在输出之后做 LayerNorm 归一化,可以提升训练的稳定性。注:LayerNorm 和 RMSNorm 的主要区别在于是否有中心化,LayerNorm 会减去特征均值,实现数据中心化,而 RMSNorm 没有这一步,故不会中心化。在大模型训练时,中心化不是必须的,而缩放是必要的,且 RMSNorm 计算量更小。

图片

  • SwiGLU activation function [PaLM]。SwiGLU 替换 FFN 层中 ReLU 层。SwiGLU 中的 G 即 gate,引入了门控(0~1)之间权重逐元素和线性变换后的原始值相乘。虽然增加了计算量,但在大模型中表现能力更好,基本是现代大模型的标配。

图片

  • Rotary Embeddings [GPTNeo]。即 RoPE 相对位置编码。位置编码一般有绝对位置编码,即可学习的位置编码或标准的 transformer 中使用的 Sinusoidal 位置编码。可学习的位置编码缺点是模型不具有长度外推性,因为位置编码矩阵的大小是预设的,若对其进行扩展,将会破坏模型在预训练阶段学习到的位置信息。Sinusoidal 位置编码还具有远程衰减的性质,具体表现为对于两个相同的词向量,如果它们之间的距离越近,则他们的内积分数越高,反之则越低。Sinusoidal 位置编码中的正弦余弦函数具备周期性,并且具备远程衰减的特性,所以理论上也具备一定长度外推的能力。而 RoPE 作者的出发点为:通过绝对位置编码的方式实现相对位置编码。Sinusoidal 位置编码通过加法把相对位置信息融入到内容信息中,但需要模型隐式学习这种相对位置信息,而 RoPE 通过旋转(乘法)把相对位置信息融入到内容信息中,是一种显式的注入,不需要隐式学习,在长度外推性方面,RoPE 比 Sinusoidal 更好。

图片

2.3 优化器

AdamW 优化器,cosine learning rate schedule 等

2.4 高效实现

做了一些优化提升训练速度。首先是采用高效因果多头注意力(from xformers)减少内存占用和运行时间,即下三角矩阵只计算需要的部分,不用的部分不存不算,从而减少显存占用。其次,保存线性层的激活值,避免反向传播时还要重新计算。 最终训练 65B 的模型,1.4 万亿的 tokens 数据,需要 80G A100 训练 21 天。

3 主要结果

在 20 个 benchmarks 做了实验。

  1. Zero-shot: 提供任务描述和一道测试题输入到模型中,让模型生成问题解答或选择正确答案。
  2. Few-shot: 提供一些任务解答案例和一道测试题,让模型生成问题解答或选择正确答案。 对比的模型:
  • 闭源:GPT-3 2020, Gopher 2021, Chinchilla 2022, PaLM 2022
  • 开源:OPT 2022, GPT-J 2021, GPT-Neo 2022, 以及指令微调的模型 OPT-IML, Flan-PaLM.

3.1 常识推理

8 个 benchmark:BoolQ,PIQA,SIQA,HellaSwag,WinoGrande,ARC easy/challenge, OpenBookQA.

图片

3.2 书本知识问答

两个 benchmark: Natural Questions 和 TriviaQA

图片

图片

3.3 阅读理解

RACE benchmark,来源于中国初高中英语测试的阅读理解题。

图片

3.4 数学推理

2 benchmark: MATH, GSM8k,初高中数学题。 Minerva 是 PaLM 在 arxiv 以及数学网站数据微调出来的模型,故效果很好。

图片

3.5 代码生成

2 个 benchmark: HumanEval,MBPP

图片

3.6 大规模多任务语言理解

MMLU benchmark

图片

3.7 训练时的性能进化

训练时评估模型性能,一般情况下,训的 tokens 越多,性能越好。

图片

4 指令微调

加点指令微调后,模型效果大幅提升。

图片

5 偏见、戾气以及错误

6 碳排放

7 相关研究

8 结论

开源了不同大小的 LLaMA 模型,通过相对较小模型 + 大量数据实现不错的效果,且所有数据都是开源的。

目录

  1. 研究背景与动机
  2. 研究方法
  3. 主要发现
  4. 摘要
  5. 1 引言
  6. 2 方案
  7. 2.1 预训练数据
  8. 2.2 架构
  9. 2.3 优化器
  10. 2.4 高效实现
  11. 3 主要结果
  12. 3.1 常识推理
  13. 3.2 书本知识问答
  14. 3.3 阅读理解
  15. 3.4 数学推理
  16. 3.5 代码生成
  17. 3.6 大规模多任务语言理解
  18. 3.7 训练时的性能进化
  19. 4 指令微调
  20. 5 偏见、戾气以及错误
  21. 6 碳排放
  22. 7 相关研究
  23. 8 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python AI 开发环境搭建:Anaconda + PyCharm + Claude Code 配置教程
  • Pandas 数据合并与拼接:merge、join 与 concat 详解
  • Python 之父 Guido Van Rossum 宣布从 Dropbox 退休
  • 企业管理系统前端组件化设计:为何 OA、CRM、ERP 表单不能直接用 Element UI 或 Ant Design
  • Supabase 全栈开发实战:从云端到本地部署指南
  • iTerm2 Snazzy 主题安装与自定义色彩指南
  • 模拟算法专题:替换问号、提莫攻击、Z 字形变换等题目解析
  • Xcode 通过设备管理器安装 IPA 应用
  • 使用 Ollama、Open WebUI 和 Docker 本地部署 AI 大语言模型
  • Stable Diffusion:AI 图像生成技术解析
  • IntelliJ IDEA 集成 GitHub Copilot 辅助编程指南
  • Motrix WebExtension 浏览器扩展配置指南
  • AI 大模型开发入门指南:学习路径与实战建议
  • HarmonyOS 6.0 应用开发:V2 装饰器@Local 的使用
  • LeetCode 92 链表区间反转:递归与哨兵节点实战
  • Python 简单 AI 应用开发指南
  • 前端核心面试题详解:ES6、跨域、Vue 原理与性能优化
  • DeepSeek R1 与 GPT 的区别及实战应用技巧
  • Java 并发锁核心分类与机制解析
  • AI 大模型高质量代码数据集构建:代理抓取与 API 工具实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online