大语言模型入门指南：原理、类型与应用

前言

ChatGPT 等生成式 AI 产品展现了强大的自然语言处理能力，类似的产品如文心一言、通义千问、Kimi Chat 等层出不穷。AI 应用已逐渐渗入工作和生活的诸多场景。面对这一技术浪潮，深入理解其原理与机制至关重要。

什么是大语言模型

定义

大语言模型（Large Language Model, LLM）是一种用于处理自然语言的机器学习模型，采用神经网络架构，属于生成式 AI。它通过预训练与微调相结合的方法，利用大规模无监督语料库学习丰富的语言知识，从而能够生成自然流畅的语言。简单来说，该模型能像人脑一样学习知识，并根据所学生成类人内容。

特点

相比传统自然语言模型，大语言模型的创新主要体现在'大'和'新'。

大

参数大

参数可类比大脑中的神经元。神经元越多，理论上越可能出现高级智慧。例如 GPT-3 参数高达 1750 亿，马斯克开源的 Grok-1 有 3140 亿参数，Meta 开源的 Llama 3 70B 也有 700 亿参数。榜单上评分较高的模型通常参数较大，尤其在逻辑或数学方面得分越高，参数规模往往越大。

学习内容多

GPT-3 的预训练数据量高达 45TB，涵盖维基百科、书籍、期刊及代码等多种类型数据。

资源需求大

训练大语言模型需要大量显卡。Google 拥有的 H100 显卡数量高达 2.6 万块，显存总量巨大。运行这些资源需要深厚的硬件支撑。

新

新架构：Transformer

Transformer 模型由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它采用了自注意力机制（Self-Attention）、多头注意力机制和位置编码等关键技术，极大增强了模型的处理能力和学习效率，是当下最流行的架构。

Transformer 是如何工作的

基于 Transformer 架构的生成式 AI 主要目标是生成文本。生成时根据输入内容和已生成的文本一起预测下一个字（Token），直到结束符号出现。当前生成的字将作为生成新字的输入，实现一字一字的生成。

例如输入'我'，模型可能生成'我是'，再根据'我是'生成'我是 AI'。这取决于训练数据。如果更换训练数据，模型可能生成'我是大熊猫'。

Transformer 的结构

Transformer 由一个编码器（Encoder）和一个解码器（Decoder）组成。每个部分通常包含 6 层编码层和解码层。

![Transformer 架构图]

每个编码层包含一个自注意力层（self-attention）和一个前馈神经网络层（Feed Forward）。多头注意力（Multi-Head Attention）初始化了多组平行的自注意力层，以获得对输入序列更丰富的理解。

解码层结构类似，由掩码自注意力层（masked multi-head attention）、编码 - 解码注意力层（Encoder-Decoder）和前馈神经网络层组成。掩码自注意力层遮盖当前词后面的词，确保训练时只关注当前词。编码 - 解码注意力层接收编码器输出与上层自注意力层输出作为参考。

最后，通过 Linear 层和 Softmax 层将输出转为文字概率，选择概率较高的文字输出，重复此过程直到结束。

Transformer 的运行机制

输入序列：用户输入一句话。
Embedding：向量化输入序列。
位置信息：加入位置编码形成新向量。
编码器计算：输入编码器生成新向量。
注意力向量：转换为 K/V 向量供解码器使用。
解码器生成：根据 K/V 向量生成第一个输出，后续结合之前输出生成。
打分：Linear 层对输出文字打分。
归一化：Softmax 生成文字概率。
输出：选择最大概率文字，持续执行直到结束符号。

序号	掌握的资源	所属流程	我们能干什么
1	垂直行业数据（如医疗疾病数据）	数据	基于开源模型微调垂直行业模型，或与第三方合作。
2	相关技术资源及大量计算资源	预训练模型	通常只有大公司能做，可提供开源模型或 API。
3	计算资源、高质量数据集、技术团队	微调	协助数据收集清洗，提供微调服务。
4	专业技术团队、评估方法或工具	评测	评估现有模型，选择适合客户的模型，提供性能报告。
5	专业技术团队、部署方法或工具	部署	帮助客户部署模型，确保稳定运行，提供技术支持。
6	AI 知识、软件开发能力、开发框架知识	应用开发	根据场景提供基于大模型的应用开发。
7	AI 应用操作方法	使用 AI 应用	利用 AI 优化工作流程，学习 AI 知识。

大语言模型入门指南：原理、类型与应用

前言

什么是大语言模型

定义

特点

大

参数大

学习内容多

资源需求大

新

新架构：Transformer

Transformer 是如何工作的

Transformer 的结构

Transformer 的运行机制

大模型的类型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开源大模型

闭源大模型

开源 VS. 闭源

性能

成本

灵活性

隐私和数据安全

选择建议

在哪里可以找到开源模型

大模型全流程

数据

预训练模型

微调

评测

部署

应用开发

RAG 系统

Agent 系统

我们该如何参与到大模型领域中

态度

与计算机技术有关

与计算机技术无关

掌握的资源

发展趋势

模型小型化

多模态

新架构

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具