大语言模型经典论文清单：OpenAI、Google 与开源系列

综述由AI生成梳理了大语言模型（LLMs）的经典发展脉络与核心论文。涵盖 OpenAI 系列（GPT-1 至 ChatGPT）、Anthropic Claude、Meta LLaMA 及清华 GLM 系列。重点解析预训练、指令微调、RLHF 等技术演进，对比不同模型的架构特点与应用场景，为读者提供系统的学习路径与技术选型参考。

ApiHolic发布于 2025/2/6更新于 2026/6/217 浏览

要说 2023 刷屏最多的词条，ChatGPT 可以说是无出其右。到最近的 GPT-4，技术的革新俨然已呈现破圈之势，从学术圈到工业界再到资本圈，同时也真切逐步影响到普通人的日常生活与工作。

坦白来讲，对于大语言模型生成相关的工作，个人长期以来持保守态度，认为这个方向更多的是一种深度学习的理想追求。现在看小丑竟是我自己，也许优秀的工作正是需要对理想状态的持续追求，才叫优秀的工作。

言归正传，本系列打算跟风讨论一下关于 ChatGPT 相关技术，主要内容分为三部分，也会分为三篇文章：

经典论文精读【this】：通过本文阅读可以了解 ChatGPT 相关经典工作的大致思路以及各个时期的关键结论；
开源实现技术【soon】：总结最近几个月开源工作者们 follow ChatGPT 的主要方向和方法；
自然语言生成任务的前世今生和未来【later】：大语言模型之外，谈谈自然语言生成的'传统'研究方向与未来畅想。

因为相关技术发展迅速，三部分内容也会定期更新。本文主要为第一部分经典论文学习，而相关的工作众多（如图），一一阅读并不现实，因此本文选择持续性最高的 OpenAI 系列和 Google 系列，以及近期影响力比较大的 LLaMA，最后是中文适配比较好的 GLM 和 ChatGLM。

大语言模型经典论文清单

10B 以上大模型（黄色为开源）

此外，本文阅读需要一定的 NLP 基础概念，比如知道什么是 BERT 和 Transformer、什么是 Encoder-Decoder 架构、什么是预训练和微调，什么是语言模型等。

OpenAI 系列

本节目标是通过 OpenAI 系列论文阅读细窥 ChatGPT 的主要原理，其先进的工作脉络可以概括为下图。从依赖往上追溯需要了解 Codex 和 instructGPT、再往上是 GPT-3、继而也需要了解 GPT-2 和 GPT-1。（GPT-4 暂时简单地看作是 Plus 版本的 GPT-3.5，而且增加了多模态数据的处理能力，等更多的细节公开后再作讨论）

OpenAI 工作脉络

GPT-1

论文链接：《Improving Language Understanding by Generative Pre-Training》

动机

任务目标和 BERT 一致（但在 BERT 之前），希望通过大规模无标注数据进行预训练，下游任务微调的方式解决经典 NLP 任务，缓解有监督任务数据收集成本高的问题。GPT-1 虽然不是第一个使用预训练 - 微调架构的工作，但也是使用 Transformer-Decoder 做相关任务的很早期工作了。

方案概述

模型结构：Transformer 的 Decoder 部分

训练方法：自回归的生成方式进行语言模型预训练，判别式的结构进行下游任务微调。

一些细节

预训练：

Loss：经典的语言模型训练目标，将无标注的样本库表示为 token 序列集合 U = {u_1, …, u_n}，最大化下面的似然估计。即通过一段话的前面的 token，预测下一个 token，其中 k 为上下文窗口。

GPT-1 Loss 公式

模型：使用多层 Transformer decoder 建模 P，简化的公式表达如下。W_e 为 token embedding 矩阵，W_p 为位置向量矩阵，通过多层 transformer block，最后每个 token 通过 transformer block 成为编码后的向量 h_n，最后经过一个线性层+softmax，即为下一个 token 的预测分布。

能力	模型名	训练方法	OpenAI API
Before GPT-3
Pretrain + Fintune like Bert	GPT-1	Language Modeling + Task Finetune	-
Generation+Zero-shot task	GPT-2	Language Modeling	-
GPT-3 Series
Generation+World Knowledge+In-context Learning	GPT-3 Initial	Language Modeling	Davinci
+Follow Human Instruction+generalize to unseen task	Instruct-GPT initial	Instruction Tuning	Davinci-Instruct-Beta
+Code Understanding+Code Generation	Codex initial	Training on Code	Code-Cushman-001
GPT-3.5 Series
++Code Understandning++Code Generation++Complex Reasoning / Chain of Thought (why?)+long-term dependency (probably)	Current Codex Strongest model in GPT3.5 Series	Training on text + code Tuning on instructions	Code-Davinci-002 (currently free. current = Dec. 2022)
++Follow Human Instruction--In-context learning--Reasoning++Zero-shot generation	Instruct-GPT supervisedTrade in-context learning for zero-shot generation	Supervised instruction tuning	Text-Davinci-002
+Follow human value+More detailed generation+in-context learning+zero-shot generation	Instruct-GPT RLHF More aligned than 002, less performance loss	Instruction tuning w. RLHF	Text-Davinci-003
++Follow human value++More detailed generation++Reject questions beyond its knowledge (why?) ++Model dialog context --In-context learning	ChatGPT Trade in-context learning for dialog history modeling	Tuning on dialog w. RLHF	-

大语言模型经典论文清单：OpenAI、Google 与开源系列

OpenAI 系列

GPT-1

GPT-2

GPT-3

Codex

InstructGPT

ChatGPT

Anthropic 的 Claude

动机

方案简述

一些细节

LLaMa 与 Alpaca

LLama

Alpaca

GLM 与 ChatGLM

GLM

ChatGLM

小结

更多推荐文章

相关免费在线工具

大语言模型经典论文清单：OpenAI、Google 与开源系列

OpenAI 系列

GPT-1

GPT-2

GPT-3

Codex

InstructGPT

ChatGPT

Anthropic 的 Claude

动机

方案简述

一些细节

LLaMa 与 Alpaca

LLama

Alpaca

GLM 与 ChatGLM

GLM

ChatGLM

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具