LLM 基础篇(一):大模型理念与演进
本文详细阐述了大规模语言模型(LLM)的基本概念、发展历程及技术架构。文章介绍了从 Word2Vec 到 Transformer 再到 GPT 系列的演进路径,分析了预训练、有监督微调和强化学习(RLHF)三大核心训练阶段。同时探讨了大模型面临的算力成本挑战及业界解决方案,并对涌现能力、思维链、LoRA 等关键技术术语进行了定义。内容涵盖 NLU 与 NLG 分类、开源与闭源模型对比,以及未来多模态与端侧部署趋势,旨在帮助读者系统理解大模型理念与技术栈。

本文详细阐述了大规模语言模型(LLM)的基本概念、发展历程及技术架构。文章介绍了从 Word2Vec 到 Transformer 再到 GPT 系列的演进路径,分析了预训练、有监督微调和强化学习(RLHF)三大核心训练阶段。同时探讨了大模型面临的算力成本挑战及业界解决方案,并对涌现能力、思维链、LoRA 等关键技术术语进行了定义。内容涵盖 NLU 与 NLG 分类、开源与闭源模型对比,以及未来多模态与端侧部署趋势,旨在帮助读者系统理解大模型理念与技术栈。

大规模语言模型(Large Language Models,简称 LLM),是一种由包含数百亿甚至数千亿参数的深度神经网络构建的语言模型。它使用自监督学习方法,通过海量无标注文本数据进行训练,从而学习语言的统计规律和语义表示。
自 2018 年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构相继发布了包括 BERT、GPT 系列等多种模型,并在几乎所有自然语言处理任务中都表现出色。2019 年大模型呈现爆发式增长,特别是 2022 年 11 月 ChatGPT 发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,实现问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的世界知识掌握能力和对语言的理解能力。
一般来说,大模型(Pretrained Foundation Model, Large Language Model)满足如下条件:
人工智能发展的主要目标之一是让机器能听会说,能理解会思考。目前人工智能技术正处在从感知智能到认知智能跨越的时间节点。自然语言处理(NLP)是认知智能中的重要内容,也是通往强人工智能的必经之路。
与自然语言处理不同,语言是高度抽象的产物,其基本组成单位并不是明确的物理实体。自然语言表示的发展一定程度上反映了自然语言处理的发展,其变迁很大程度影响着 NLP 的范式:
大模型的发展经历了几个关键阶段:
根据面向的任务类型,相关预训练模型大致分为两大类:
此外,按开源属性可分为:
传统的机器学习流程需要针对特定任务收集数据并重新训练模型。而大模型的新范式强调在预训练阶段学习通用知识,在实际应用时通过 Prompt(提示词)引导模型完成任务,无需更新模型参数。
现代大模型的构建通常包含以下四个核心阶段:
预训练(Pretraining) 利用海量的训练数据,包括互联网网页、维基百科、书籍、GitHub 代码库、论文、问答网站等,构建包含数千亿甚至数万亿单词的具有多样性的内容。目标是让模型学习语言的语法、事实知识和逻辑推理能力。损失函数通常为 Next Token Prediction(下一个词预测)。
有监督微调(Supervised Fine-Tuning, SFT) 也称为指令微调(Instruction Tuning)。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式。此阶段旨在让模型学会遵循人类指令,而非仅仅续写文本。
奖励建模(Reward Modeling, RM) 目标是构建一个文本质量对比模型。对于同一个提示词,RM 模型对 SFT 模型给出的多个不同输出结果的质量进行排序。RM 模型通常通过二分类模型,对输入的两个结果之间的优劣进行判断。RM 模型本身并不能单独提供给用户使用,而是作为强化学习的反馈信号。奖励模型的训练通常和 SFT 模型一样,使用数十块 GPU,通过几天时间完成训练。
强化学习(Reinforcement Learning, RL) 具体为基于人类反馈的强化学习(RLHF)。根据数十万用户给出的提示词,利用在前一阶段训练的 RM 模型,给出 SFT 模型对用户提示词补全结果的质量评估,并与语言模型建模目标综合得到更好的效果。该阶段所使用的提示词数量与有监督微调阶段类似,数量在十万量级,并且不需要人工提前给出该提示词所对应的理想回复。常用算法包括 PPO(Proximal Policy Optimization)。
随着模型大小几乎呈指数增长,大模型训练面临新的挑战:
以 GPT-3 (175B) 为例,一次训练的计算资源消耗巨大。
为了应对成本和效率问题,业界提出了多种方案,如 Predictive Scaling(预测性扩展)、混合精度训练、ZeRO 优化器等分布式训练策略。
大模型技术仍在快速迭代中。未来的发展方向包括:
掌握大模型技术已成为当前程序员和研究人员的重要技能。通过深入理解其原理、训练流程及应用场景,可以更好地应对实际项目需求,提高数据分析、决策准确性和编码能力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online