LLM 大语言模型入门指南
01 术语清单
核心概念速查
大语言模型(Large Language Model, LLM)是基于深度学习技术构建的,能够理解、生成和处理人类语言的模型。理解其基础术语是进入该领域的第一步。
- Transformer: 当前 LLM 的主流架构,基于自注意力机制(Self-Attention),能够并行处理序列数据,解决了 RNN 和 LSTM 在处理长序列时的梯度消失问题。
- Tokenization: 将文本分割为 Token 的过程。Token 可以是单词、子词或字符。分词策略直接影响模型的上下文窗口大小和训练效率。
- Attention Mechanism: 允许模型在生成输出时关注输入序列的不同部分,从而捕捉长距离依赖关系。
- Pre-training: 使用海量无标注数据对模型进行预训练,使其学习通用的语言表示。
- Fine-tuning: 在预训练模型的基础上,使用特定领域的有标注数据进行微调,以适应具体任务。
- Inference: 模型部署后,接收输入并生成输出的过程。

如需进一步补充内容,建议参考权威技术文档或官方论文。
02 学习路径
系统化路线图
mlabonne 创建了一个 GitHub 仓库名为 llm-course,这是一个非常系统的学习 LLM 的路线图。路线图共分为三个主要部分:
- LLM Fundamentals: 涵盖基础理论,包括 Transformer 架构、注意力机制、位置编码等。
- The LLM Scientist: 深入探讨模型原理,涉及预训练、评估指标及前沿研究。
- The LLM Engineer: 侧重于工程实践,包括模型部署、推理优化及实际应用开发。
每个部分都包含相关的文章、视频、课程、项目、代码和论文,供学习者参考。该仓库 Star 数超过 2 万,Fork 数超过 2 千,且有活跃的 Issue 讨论,是一份高质量的学习资料。
GitHub 地址:https://github.com/mlabonne/llm-course
03 书籍推荐
经典教材与实战指南
《Understanding Large Language Models》
这是一本适合入门的书籍,共 145 页。主要介绍了大型语言模型的基本原理和底层技术。阅读本书,您将能够掌握 LLM 的基本概念,了解自然语言处理(NLP)的发展历程,理解 Transformer 模型和注意力机制,开始探索不同类型的 LLM 及其应用,并且能够掌握流行的 LLM 架构。
《Build A Large Language Model》
本书作者 Sebastian Raschka 深入剖析了大语言模型的工作原理,并手把手地教授读者如何从零开始构建、训练和调整大型语言模型。跟随书籍内容的展开,读者将能够一步步揭开 LLM 的神秘面纱,并学习按照业界标准步骤来训练和开发自己的小型语言模型。
这本书共 8 章,处于 MEAP (Manning Early Access) 预览阶段,目前更新的章节允许在线阅读。作者在 GitHub 开源了书籍配套的全部代码,还在实时更新和维护中。你可以根据作者提供的技巧与建议,在自己的电脑上完成语言模型的开发和部署。
GitHub 地址:https://github.com/rasbt/LLMs-from-scratch/tree/main
《Hands-On Large Language Models: Language Understanding and Generation》
本书是大语言模型领域非常专业的新书,由 O'Reilly 出版。目前更新了多个章节,涵盖了从基础理论到高级应用的广泛内容。该书提供了详细的代码示例,帮助读者在实践中理解模型行为。
04 视频与课程
优质教学资源
OpenAI 大神带你一小时入门大语言模型
OpenAI 前负责人 Andrej Karpathy 在今年 5 月份的微软 BUILD 2023 大会上,做了名为「State of GPT」的演讲,介绍了 GPT 的训练和推理过程。近期,Andrej Karpathy 专门录制了一个视频「The busy person's intro to large language models」,用一小时的时间带你搞懂什么是大模型。这应该是我们能看到的最好的大模型入门讲座之一。
B 站视频地址:https://www.bilibili.com/video/BV1kC4y1P7Lt/
大语言模型技术栈一览
UP 主 hzg0601 整理了一份「大模型技术原理」知识思维导图,该思维导图非常详细,涵盖了多个关键知识点。其中,作者对 RAG(检索增强生成)、Agent(智能体)、Prompt Engineering(提示词工程)等领域进行了深入的探讨和研究,其知识体系和内容要点都非常新颖。
同时,UP 主还在 B 站上分享了系列视频,讲解了这些领域的详细知识点,目前更新到了 12 期,值得深入学习。
思维导图地址:https://www.mubu.com/doc/2yVWogEso5i
视频链接:https://www.bilibili.com/video/BV1jj411H7vG/
Learn by Doing LLM Projects
这是一门 GitHub 目前仍在密集更新的实操课程,主题是 LLM 操作指南。课程每部分都有详细理论讲解和实操代码文档,互相搭配使用,可以丝滑完成某个主题的学习。
大部分代码文档 Notebook 托管在了 Google Colab,一小部分在 Kaggle 上。有些 Notebook 所需内容超过了 Colab 免费版本上限,这时可以选择使用 Pro 版本或者在自己本地环境中运行。
GitHub 地址:http://github.com/peremartra/Large-Language-Model-Notebooks-Course
05 综述与研报
行业洞察与评测体系
Evaluating Large Language Models: A Comprehensive Survey
天津大学自然语言处理实验室最近发布了大模型评测的综述文章。该综述文章共有 111 页,其中正文部分 58 页,引用了 380 余篇参考文献。
该综述将整个大模型评测按照评测维度的不同分为了 5 个评测类别:
- 知识和能力评测
- 对齐评测
- 安全评测
- 行业大模型评测
- (综合)评测组织
这 5 个评测类别基本囊括了当前大模型评测的主要研究领域。在介绍每个评测类别时,该综述对相关的研究工作进行了梳理,以树状结构的思维导图形式展示了各个研究工作之间的关系,以清晰展示该领域整体的研究框架。
论文地址:https://arxiv.org/abs/2310.19736
论文参考文献详细列表:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers
2023 大模型落地应用案例集
本报告是由中国信息通信研究院编纂的一份关于大模型落地应用的案例集,收录了 2023 年国内比较知名的国产大模型。本案例集按照通用大模型、垂直大模型、大模型服务三大类别进行分类整理。
手册对知名大模型进行了详细的介绍,包括其所属公司的背景、模型概述、需求分析、案例应用和效益分析等方面。阅读报告,你可以快速了解国产大模型一年的发展轮廓。
06 实践建议
从理论到落地的关键步骤
对于希望深入参与 LLM 开发的技术人员,除了理论学习外,还需要关注以下实践环节:
- 环境搭建: 配置 Python 环境,安装 PyTorch、Transformers 等核心库。建议使用 Conda 管理依赖。
- 数据准备: 收集清洗领域数据,进行 Tokenization 预处理。注意数据隐私和版权合规。
- 模型选择: 根据任务需求选择合适的基座模型(如 Llama, ChatGLM, Qwen 等)。
- 微调策略: 根据资源情况选择全量微调或参数高效微调(PEFT/LoRA)。
- 部署优化: 使用 vLLM、TensorRT-LLM 等工具优化推理速度和显存占用。
通过系统化的学习和实践,逐步构建自己的 LLM 知识库和应用能力,是应对 AI 时代挑战的有效途径。