大模型(LLMs)基础面
主流开源模型体系
目前主流的开源模型体系主要包括基于 Transformer 架构的 Decoder-only 模型(如 LLaMA 系列)、Encoder-Decoder 模型(如 T5、BART)以及部分混合架构。其中,Decoder-only 结构因其在生成任务上的高效性和扩展性,成为当前大语言模型的主流选择。
架构差异解析
Prefix Decoder、Causal Decoder 和 Encoder-Decoder 是三种主要的神经网络架构模式。Prefix Decoder 通常指在输入前添加特定前缀的结构;Causal Decoder 即自回归解码器,仅关注当前时刻之前的信息,常用于生成任务;Encoder-Decoder 则包含编码器和解码器两部分,适用于序列到序列的任务如翻译。目前主流大模型多采用 Decoder-only 结构以适配长文本生成。
训练目标与涌现能力
大模型 LLM 的训练目标主要是最大化下一个 Token 预测的概率,即自监督学习中的掩码语言建模或因果语言建模。涌现能力是指当模型规模达到一定阈值后,突然表现出的超出预期的小规模模型所不具备的能力,如复杂推理、代码生成等。这通常归因于模型参数量的增加带来的表示能力提升和注意力机制的优化。
模型规模标识
大模型后面跟的 175B、60B、540B 等数字指的是模型的参数量(Parameters),单位为十亿(Billions)。参数量越大,通常意味着模型能存储更多的知识和具备更强的泛化能力,但对计算资源和显存的要求也越高。
优缺点分析
大模型具有强大的通用性、少样本学习能力及处理复杂任务的优势。缺点包括训练成本高昂、推理延迟高、存在幻觉问题、对硬件资源要求极高以及潜在的伦理和安全风险。
大模型(LLMs)进阶面
复读机问题
LLM 复读机问题指模型在生成过程中重复输出相同的片段或句子。出现原因通常是采样策略不当(如温度过低)、上下文窗口限制导致记忆丢失或概率分布过于集中。缓解方法包括调整采样参数(提高温度、使用 Top-K/Top-P)、引入惩罚机制或使用更长的上下文窗口。
模型选型建议
BERT 类模型适合理解型任务(如分类、抽取),而 LLaMA、ChatGLM 等大模型适合生成型和对话型任务。专业领域是否需要各自的大模型取决于数据量和垂直领域的复杂度,若领域数据充足且通用模型效果不佳,可考虑领域微调或专用模型。
长文本处理
让大模型处理更长文本的方法包括使用滑动窗口、RoPE 位置编码外推、稀疏注意力机制或专门的长上下文模型(如 Longformer)。此外,通过压缩关键信息或摘要前置也是工程上的常用手段。
大模型(LLMs)微调面
全参数微调显存需求
全参数微调需要加载模型权重、优化器状态、梯度及激活值。对于 7B 模型,通常需要至少 24GB-48GB 显存(视精度和 batch size 而定)。具体需求取决于是否使用混合精度、ZeRO 优化等技术。
SFT 后的模型退化
SFT 之后感觉 LLM 变傻可能是因为灾难性遗忘,即模型在学习新指令时覆盖了原有的通用知识。缓解方法包括保留部分通用数据、使用正则化约束或采用参数高效微调(PEFT)。
指令微调数据构建
SFT 指令微调数据应包含清晰的指令、上下文和期望的输出。格式通常为 JSONL,包含 instruction, input, output 字段。数据质量比数量更重要,需确保多样性、准确性和逻辑性。
领域预训练与微调
Continue PreTrain 数据选取应聚焦于领域内的高质量语料。为缓解通用能力下降,可在预训练阶段混合少量通用数据。预训练注入的是世界知识,微调注入的是任务遵循能力。想让模型学习特定行业知识,通常先进行增量预训练,再进行指令微调。
基座模型选择
SFT 操作时,基座模型选用 Base 还是 Chat 取决于任务。Base 模型更适合从头学习特定领域分布,Chat 模型已具备对话能力,适合直接进行指令对齐。领域模型微调需注意指令&数据输入格式的统一,并构建领域评测集验证效果。
词表扩增与中文支持
领域模型词表扩增并非总是必要,仅在领域专有名词极多且现有词表覆盖不足时考虑。训练中文大模型经验表明,需构建高质量的中文分词器,并进行充分的继续预训练以提升中文 Token 的表示能力。
灾难性遗忘与优化
微调后的模型出现能力劣化,灾难性遗忘是因为更新权重破坏了原有特征。优化样本可通过去重、清洗噪声、平衡分布实现。样本量增大出现 OOM 错误时,需减小 Batch Size 或使用梯度累积。


