大语言模型(LLM)入门教程
本文基于 OpenAI 资深研究员 Andrey Karpathy 关于大语言模型的讲座内容进行整理,旨在为读者提供清晰的大模型技术概览。内容涵盖 LLM 的基本定义、训练过程、推理机制以及微调方法。
大语言模型(LLM)是基于海量文本数据进行预训练的深度神经网络,其核心任务是通过预测下一个词来压缩世界知识。文章详细阐述了 LLM 的构成,包括参数文件与运行代码,以及训练过程中涉及的算力成本与数据规模。内容涵盖了从预训练积累知识,到微调阶段实现人机对话对齐,再到强化学习优化安全性的完整流程。此外,还分析了开源与闭源模型的现状,并总结了模型推理的不确定性与应用场景。

本文基于 OpenAI 资深研究员 Andrey Karpathy 关于大语言模型的讲座内容进行整理,旨在为读者提供清晰的大模型技术概览。内容涵盖 LLM 的基本定义、训练过程、推理机制以及微调方法。
以大语言模型 Meta 的 Llama-2-70B 为例,该模型拥有 700 亿参数。Llama 系列包含多个规模版本(7B, 13B, 34B, 70B),因其开源特性而广受欢迎。Meta 公开了模型权重、架构及相关论文,允许研究人员自由使用。
相比之下,闭源模型如 ChatGPT 的所有权归 OpenAI 所有,其权重和架构未公开,用户仅能通过 API 或网络界面付费访问。
Llama 系列的每个版本主要由两个文件组成:
只要拥有这两个文件及一台计算设备,即可搭建完全独立的系统,甚至离线运行。将参数文件与编译后的二进制文件置于同一目录,运行后即可与模型交互,例如让模型生成文本或诗歌。
上述演示的是模型推理过程,即如何使用已有模型文件。真正的核心在于如何获取这 700 亿个参数。训练过程比推理复杂得多,计算量极大。
以 Llama-2-70B 为例:
这个过程可理解为将互联网原始文本压缩成一个 ZIP 文件(参数文件)。虽然压缩比高达 100 倍(10TB -> 140GB),但这属于有损压缩,并非完整知识副本,而是对世界知识的统计性概括。

当前最先进模型(如 ChatGPT、Claude 等)的训练规模可能是上述数字的 10 倍以上,成本可达数千万甚至数亿美元。一旦获得这些参数,运行成本则相对较低。
这些参数组成了一个巨大的神经网络,其基本任务是预估一段文本序列中的下一个单词。
给定输入'我的猫跳上了',网络中的数百亿参数根据既定方式计算,最终输出下一个词的概率分布。例如,'桌子'的概率可能是 97%。数学上已证明,预测能力与数据压缩能力密切相关。如果模型能准确预测下一个词,说明它成功压缩了数据集。

看似简单的预测任务迫使模型学习大量世界知识。例如,为了预测维基百科页面中特定词汇,模型必须学习相关人物生平、事件等。通过海量文本不断调整参数值,模型完成了知识压缩的目的。
训练完成后,推理过程异常简单。模型根据人为提供的文本(Prompt)和已生成的单词,不断迭代生成下一个词,直至完成整篇文章。这一过程被称为'模型做梦'(Dreams),因为生成过程具有随机性和创造性,而非确定性。
由于模型是对世界知识的有损压缩,它记住了部分知识、文本形式和固有搭配。它综合利用这些信息创造新形式,有时会产生幻觉(Hallucination),有时又能完美完成任务。这种不确定性源于我们尚不完全清楚模型具体记住了哪些内容。
模型通常采用 Transformer 架构。虽然我们可以完全了解其架构和数学运算,但难点在于数百亿参数的分布及其协作方式。目前无法从微观角度确切解释每个参数的作用,更多是从宏观层面理解:模型内部构建了一套知识库,但该知识库有时表现奇怪。
例如,问'汤姆·汉克斯的母亲是谁',模型可能回答正确;但反向提问'玛丽·李·菲佛的儿子是谁',模型可能表示不知道。这种单向和一维的知识结构反映了模型的非确定性特征。我们无法像工程学科(如汽车制造)那样精确预判每个部件的动作,因此模型的训练、使用和评估更多是经验性的,通过观察输入输出来衡量效果。

预训练模型更像是一个互联网文档生成器。为了获得真正有用的助理模型,需要进行第二阶段训练,即微调(Fine-tuning)。

在微调阶段,更看重数据质量而非数量。相比预训练的几十 TB 数据,微调数据通常为万级或十万级的高质量对话。经过微调,模型模式发生转变,从文档生成器变为问答助手。例如,当用户询问代码错误时,模型能指出具体位置。
简而言之,预训练积累知识,微调实现对齐(Alignment),将模型转变为可靠的助手。这两个阶段对于大模型至关重要。

除了预训练和微调,还存在第三阶段:基于人类反馈的强化学习(RLHF)。
在这一阶段,引入答案对比。对于同一个问题,提供多个潜在答案(有的来自人工编写,有的来自模型生成),并标注优劣排序。模型通过学习这些排序,使生成的答案更符合人类偏好,避免产生有害内容(如暴力、涉政等)。

随着模型能力提升,部分数据采集工作正逐渐被机器辅助替代,人类角色转变为监督员,负责校验模型生成内容的质量。
目前大模型生态主要分为两类:
大语言模型的发展经历了从预训练到微调再到强化学习的演进。预训练赋予了模型广泛的世界知识,微调使其具备了特定领域的服务能力,而强化学习则进一步优化了模型的安全性和对齐度。
尽管模型的具体内部运作机制仍具黑盒性质,但其作为工具的价值已得到验证。未来,随着算力成本的降低和数据质量的提升,大模型将在更多垂直领域落地。同时,安全性、可控性以及伦理问题也将成为后续研究和应用的重点方向。理解这些基础原理,有助于开发者更好地利用大模型技术解决实际问题。
注:本文内容基于公开讲座资料整理,旨在技术分享。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online