LLaMA论文阅读笔记

论文:https://arxiv.org/pdf/2302.13971

1、为什么要做这个研究(理论走向和目前缺陷) ?
之前的效果的模型要么不开源,要么用了私有数据训练,完全开源的效果都不咋地。
2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
用完全开源的数据(1.4万亿tokens),并没有大的离谱模型(7B到65B), 做了一系列前面研究做的优化,如RMSNorm的Pre-normalization减少计算量,FFN的激活函数替换为SwiGLU增强表现能力更好,旋转位置编码RoPE提升模型长度外推性。这些优化基本都成了后续大模型设计的标配。
3、发现了什么(总结结果,补充和理论的关系)?
算是首个完全开源且效果和闭源模型相当的LLM模型,候选qwen也是基于这个模型改进得到的。

摘要

发布LLaMA系列模型,参数量从7B到65B量级,训练数据在1.5万亿tokens,且全是开源的数据,13B参数量的比175B的GPT-3性能还要好,65B的模型达到当前最好的大语言模型效果。

1 引言

在算力固定的情况下,小模型+大数据比大模型+小数据效果更好,而且小模型+大数据可能训练时间很长,但是推理时长比较短。

2 方案

2.1 预训练数据

全是开源数据,大部分都是其他LLM训练用的数据。
英文爬虫获取数据(67%)。预处理之前别人通过爬虫获得的(2017-2020)文献,但做了以下处理,1)数据去重。2)用fastText线性分类器区分是否英文数据,把非英文的踢掉。3)ngram语言模型滤除内容质量底下的数据。4)训练了一个分类器区分是否来自维基百科数据,把非维基百科的数据丢弃掉。
C4数据(15%)。预处理包括去重以及去非英文数据。
github数据(4.5%)。去重,去低质量数据。
Wiki百科(4.5%)。2022年1月-2022年月的数据。把超链接、评论、及废话去掉。
Gutenberg and Books3 [4.5%]。来自书本的预料库,也做了去重。
ArXiv [2.5%]. 移除文章第一节前的所有内容,包括作者信息也被移除。
Stack Exchange [2%]. 有高质量问答数据的网站,类似stackoverflow。

分词器: BPE.
最终获得共计1.4T(1.4万亿)个训练tokens,大多数训练数据只会被训练一次,除了维基百科和书本里的数据训练了两次。

2.2 架构

基于transformer了架构,并混合了后续模型提出的各种优化方法。包括:
Pre-normalization [GPT3]. 使用RMSNorm在transofmer子层输入之前先做归一化,而不是像标准的transfomer一样在输出之后做LayerNorm归一化,可以提升训练的稳定性。注:LayerNorm和RMSNorm的主要区别在于是否有中心化,LayerNorm会减去特征均值,实现数据中心化,而RMSNorm没有这一步,故不会中心化。在大模型训练时,中心化不是必须的,而缩放是必要的,且RMSNorm计算量更小,

[图片]

SwiGLU activation function [PaLM]。SwiGLU替换FFN层中ReLU层。SwiGLU中的G即gate,引入了门控(0~1)之间权重逐元素和线性变换后的原始值相乘。虽然增加了计算量,但在大模型中表现能力更好,基本是现代大模型的标配。

[图片]

Rotary Embeddings [GPTNeo]。即RoPE相对位置编码。位置编码一般有绝对位置编码,即可学习的位置编码或标准的transfomer中使用的Sinusoidal位置编码。可学习的位置编码缺点是模型不具有长度外推性,因为位置编码矩阵的大小是预设的,若对其进行扩展,将会破坏模型在预训练阶段学习到的位置信息。Sinusoidal位置编码还具有远程衰减的性质,具体表现为对于两个相同的词向量,如果它们之间的距离越近,则他们的内积分数越高,反之则越低。Sinusoidal位置编码中的正弦余弦函数具备周期性,并且具备远程衰减的特性,所以理论上也具备一定长度外推的能力。而RoPE作者的出发点为:通过绝对位置编码的方式实现相对位置编码。Sinusoidal位置编码通过加法把相对位置信息融入到内容信息中,但需要模型隐式学习这种相对位置信息,而RoPE通过旋转(乘法)把相对位置信息融入到内容信息中,是一种显式的注入,不需要隐式学习,在长度外推性方面,RoPE比Sinusoidal更好。参考
https://hub.baai.ac.cn/view/32862 获取更详细的信息。

在这里插入图片描述

2.3 优化器

AdamW 优化器,cosine learning rate schedule等

2.4 高效实现

做了一些优化提升训练速度。首先是采用高效因果多头注意力(from xformers)减少内存占用和运行时间,即下三角矩阵只计算需要的部分,不用的部分不存不算,从而减少显存占用。其次,保存线性层的激活值,避免反向传播时还要重新计算。
最终训练65B的模型,1.4万亿的tokens数据,需要80G A100训练21天。

3 主要结果

在20个benchmarks做了实验。

  1. Zero-shot: 提供任务描述和一道测试题输入到模型中,让模型生成问题解答或选择正确答案。
  2. Few-shot: 提供一些任务解答案例和一道测试题,让模型生成问题解答或选择正确答案。
    对比的模型:
  • 闭源:GPT-3 2020, Gopher 2021, Chinchilla 2022, PaLM 2022
  • 开源:OPT 2022, GPT-J 2021, GPT-Neo 2022, 以及指令微调的模型OPT-IML, Flan-PaLM.

3.1 常识推理

8个benchmark: BoolQ, PIQA,SIQA , HellaSwag, WinoGrande, ARC easy/challenge, OpenBookQA.

[图片]

3.2 书本知识问答

两个benchmark: Natural Questions和TriviaQA

[图片]
[图片]

3.3 阅读理解

RACE benchmark,来源于中国初高中英语测试的阅读理解题。

[图片]

3.4 数学推理

2 benchmark: MATH, GSM8k,初高中数学题。
Minerva是PaLM在arxiv以及数学网站数据微调出来的模型,故效果很好。

[图片]

3.5 代码生成

2个benchmark: HumanEval, MBPP

[图片]

3.6 大规模多任务语言理解

MMLU benchmark

[图片]

3.7 训练时的性能进化

训练时评估模型性能,一般情况下,训的tokens越多,性能越好。

[图片]

4 指令微调

加点指令微调后,模型效果大幅提升。

[图片]

5 偏见、戾气以及错误

6 碳排放

7 相关研究

8 结论

开源了不同大小的LLaMA模型,通过相对较小模型+大量数据实现不错的效果,且所有数据都是开源的。

Read more

详细的FPGA电源系统设计(附器件选型)

详细的FPGA电源系统设计(附器件选型)

某型FPGA的内部逻辑模块需要1.2V的电源 进行供电,并要求其稳定性在±50mV之内,如下图所示。        本文采用TPS54302电源转换器将12V输入电压转换为1.2V输出电压,其最大输出电流为3A。要使得所产生的电压稳定在1.2V±50mV,需要考虑输出电压纹波、输出电流阶跃变化所引起的输出电压变化、输出电压的偏置及PCB线路的电压压降等因素。        输入电容的选择        输入电容分为两种,一种是大容量电容,一种是滤波电容。当输入电源距离TPS54302有几英尺以上时就需要大容量电容。TPS54302的datasheet推荐使用47 uF的电解电容。选择额定电压为35V的松下EEEFK1V470AP作为大容量电容。TPS54302的datasheet推荐使用10 uF的陶瓷电容作为退耦电容,并且另推荐使用一个0.1 uF的陶瓷电容进行高频滤波。初步选择型号为GCM32ER71E106KA42的10 uF陶瓷电容以及型号为GRM155R71E104KE14的0.1 uF陶瓷电容。         下面对这两个电容的额定电压和额定纹波

深入解析Stable Diffusion基石——潜在扩散模型(LDMs)

深入解析Stable Diffusion基石——潜在扩散模型(LDMs)

一、技术解读:潜在扩散模型——高分辨率图像合成的范式革命 1.1 核心动机:破解“质量-效率-可控性”的不可能三角 在潜在扩散模型(Latent Diffusion Models, LDMs)出现之前,高分辨率图像生成领域长期存在一个“不可能三角”:生成质量、计算效率、可控性难以兼得。 * GANs:能快速生成高质量图像,但训练极其不稳定,易出现模式崩溃(多样性差),且实现复杂条件的可控生成需要为不同任务设计特定架构,工程化成本极高。 * VAEs:训练稳定、架构简单,但其优化目标过度依赖像素级损失+强正则化,导致生成图像模糊、细节丢失严重,无法满足高保真生成需求。 * 像素空间扩散模型(DMs):生成质量顶尖,并支持无需重新训练的灵活引导(如修复、上色、超分),但其在百万维度的像素空间中直接进行迭代去噪,导致训练成本(通常需数百个GPU天)和推理成本(生成一张图需数分钟)高昂,仅能在超算中心或大厂落地,

无人机 5.8G 模拟图传电路设计方案及性能分析

一、什么是 5.8G 模拟图传? 简单说,5.8G 模拟图传就是无人机的 “千里眼”,能把天上拍的画面实时传到地面。你在遥控器上看到的无人机视角,全靠它来实现。 为啥是 5.8G?因为这个频段干扰少,就像高速路上车少,信号跑起来更顺畅。而且模拟信号传输快,延迟低,特别适合 FPV 竞速这种需要快速反应的场景 —— 总不能无人机都撞墙了,你才在屏幕上看到障碍物吧? 二、工作原理:信号的 “旅行记” 2.1 信号采集:无人机的 “眼睛” 无人机上的摄像头就像手机相机,能把看到的景象变成电信号。但这时候的信号很弱,还带着 “杂音”,就像说话含着口水,听不清。 这时候会经过两步处理: * 过滤杂音:用低通滤波器 “过滤” 掉高频噪音,就像用滤网把水里的沙子去掉。 * 信号放大:放大器把信号变强,

Matlab报错找不到编译器?5分钟搞定MinGW-w64 C/C++环境配置(附环境变量设置)

Matlab报错找不到编译器?5分钟搞定MinGW-w64 C/C++环境配置(附环境变量设置) 最近在尝试用Matlab调用一些C/C++写的算法库,或者想编译一个别人分享的.mex文件时,是不是经常在命令行里敲下 mex -setup 后,迎面而来的就是一个冰冷的报错窗口?"未找到支持的编译器或 SDK"——这句话对很多刚接触Matlab混合编程的朋友来说,简直像一盆冷水。别担心,这几乎是每个Matlab用户进阶路上的必经之坎。问题的核心,往往不在于Matlab本身,而在于你的电脑缺少一个它认可的“翻译官”:C/C++编译器。对于Windows用户,官方推荐且免费的解决方案就是MinGW-w64。这篇文章,就是为你准备的从报错到成功配置的完整路线图。我们不只告诉你步骤,更会解释每一步背后的逻辑,并附上那些容易踩坑的细节和验证方法,目标是让你一次配置,终身受益。 1. 理解问题根源:为什么Matlab需要单独的编译器? 在深入操作之前,花几分钟搞清楚“为什么”,能帮你避免未来很多“是什么”的困惑。Matlab本身是一个强大的解释型语言环境,