大模型面试核心知识点整理:基础、微调、推理与评测
本文系统梳理了大模型面试的核心知识点,涵盖基础架构、微调策略、推理优化、评测方法及硬件配置。内容包括主流开源模型体系、Prefix/Causal LM 区别、LoRA/QLoRA 等参数高效微调技术、LangChain 应用、Tokenizer 原理、LayerNorm/RMSNorm 差异及激活函数选择。文章旨在帮助求职者全面掌握 LLM 开发所需的关键技能与理论依据,提供从理论到实践的完整参考。

本文系统梳理了大模型面试的核心知识点,涵盖基础架构、微调策略、推理优化、评测方法及硬件配置。内容包括主流开源模型体系、Prefix/Causal LM 区别、LoRA/QLoRA 等参数高效微调技术、LangChain 应用、Tokenizer 原理、LayerNorm/RMSNorm 差异及激活函数选择。文章旨在帮助求职者全面掌握 LLM 开发所需的关键技能与理论依据,提供从理论到实践的完整参考。

主流开源模型主要包括 Llama 系列(Llama, Llama2, Llama3)、ChatGLM 系列、Qwen(通义千问)、Baichuan(百川)、InternLM(书生·浦语)等。这些模型在架构上多基于 Transformer,但在具体优化和训练数据上各有侧重。
涌现能力(Emergent Abilities)指随着模型规模增大而突然出现的、小模型不具备的能力(如推理、指令遵循)。原因尚不完全明确,通常认为与参数量、数据量及架构的协同效应有关,使得模型能更好地捕捉复杂模式。
主流架构为 Transformer Decoder-only 结构。包含 Embedding 层、多层 Transformer Block(Self-Attention + FFN)、LayerNorm 以及输出投影层。关键组件包括位置编码(RoPE/ALiBi)、激活函数(GeLU/Swish)及归一化策略。
不可以。受限于位置编码范围(如 RoPE 的频率矩阵),模型有最大上下文窗口限制(如 2048, 4096, 32k 等)。超出范围会导致外推效果下降,需通过插值或稀疏注意力优化。
指模型在生成长文本时,重复输出相同的短语或段落。这通常由概率分布坍缩、解码策略不当或训练数据中的重复模式引起。
是的。通用模型在垂直领域(医疗、法律)可能存在知识幻觉或术语理解偏差,通过领域微调(SFT/Continue PreTrain)可提升专业表现。
取决于模型大小和 Batch Size。例如 7B 模型 FP16 全微调整理约需 40GB+ 显存(含梯度、优化器状态),通常需多卡并行。
可能原因:学习率过大导致灾难性遗忘、数据质量差(噪声多)、基座模型能力被覆盖、或评估指标不匹配。
格式通常为 {"instruction": "...", "input": "...", "output": "..."}。需保证指令多样性、答案准确性,并进行清洗去重。
优先选择高质量、无版权风险的领域文档、书籍、论文。需进行分词对齐和格式统一。
增加高质量语料密度,优化 Tokenizer 以覆盖领域词汇,延长训练步数。
Base 模型更适合从头学习指令遵循;Chat 模型已具备一定对话能力,微调成本更低,但可能受限于原有偏好。
需符合模型训练脚本规范,常见为 JSONL 格式,包含 Prompt 模板填充后的完整输入输出对。
收集该领域的真实问答对,划分验证集和测试集,确保覆盖核心场景。
如果领域有大量新术语且现有词表无法有效切分,建议扩增词表以提升 Token 效率。
准备数据 -> 选择基座 -> 配置环境 -> 预训练/微调 -> 评估部署。
注意中文分词优化,使用支持中文的 Positional Encoding,数据需清洗繁体/简体转换。
提升模型对自然语言指令的理解和执行能力,使其更符合人类交互习惯。
预训练注入通用知识,微调注入特定任务或领域知识。
若领域知识稀缺,微调即可;若需深度重构领域认知,可先 Continue PreTrain 再微调。
将历史对话拼接作为 Input,最后一轮回复作为 Output,并在 Prompt 中保留对话标记。
模型过度拟合新数据,覆盖了旧任务的权重分布。可通过早停、混合数据缓解。
全参数微调需大量显存;PEFT(如 LoRA)可大幅降低需求,单卡 24G 可跑 7B 模型。
学习指令与响应的映射关系,而非单纯的知识记忆。
预训练是无监督预测下一个 Token,SFT 是有监督的指令跟随。
减少 Batch Size,使用梯度累积,或开启 ZeRO 优化。
清洗噪声数据,平衡长短样本,增加难例挖掘。
记录不同超参数下的 Loss 曲线和验证集指标,对比收敛速度。
利用 Embedding 将文档切片向量化存入向量库,查询时召回相关片段,结合 Prompt 让 LLM 生成回答。
引入重排序(Rerank)、元数据过滤、混合检索(关键词 + 向量)。
使用 LangChain 搭建 Chain,连接 Retriever 和 LLM,封装 API。
Query -> Embedding -> Vector Search -> Top-K Docs -> Prompt Construction -> LLM Generation.
Embedding 模型、向量索引算法(HNSW/IVF)、Prompt 工程。
包含 System Role、Context 内容、用户问题、回答约束。
可以,通过 merge_and_unload 将增量权重加回基座。
节省资源,便于多任务切换,避免灾难性遗忘。
加载原 LoRA 权重,追加新的适配器或合并后重新训练。
KV Cache 随序列长度增长而线性增加,且 GPU 显存碎片化管理导致占用高。
GPU 远快于 CPU,因并行计算能力强;CPU 适合低延迟或小批量场景。
int8 推理速度更快,显存占用减半,但可能损失少量精度。
具备逻辑推理能力,但依赖训练数据和微调质量,复杂推理仍需思维链(CoT)辅助。
Temperature(随机性)、Top-P(核采样)、Top-K(候选数)、Repetition Penalty(重复惩罚)。
量化(Int8/4bit)、蒸馏、剪枝、PEFT、Offloading(CPU 卸载)。
使用基准数据集(如 MMLU, C-Eval),计算准确率、BLEU、ROUGE 等指标。
通过 RLHF 奖励诚实回答,或在 SFT 数据中强调'不知道就说不知道'。
难以直接判断,通常通过检索增强(RAG)区分外部知识与内部知识。
通常保持一致架构,以便共享部分权重或简化部署。
使用合成数据、自动评分模型辅助筛选。
并行训练、优化算子、使用更高效算法(如 DPO)。
使用共享权重、梯度检查点、模型卸载技术。
使用 DeepSpeed, FSDP 进行数据并行和模型并行,解决单卡显存不足。
RAG、知识库挂载、微调。
使用云端 API 或本地轻量级部署工具(如 Ollama)。
过多重复会导致过拟合,降低泛化能力,需去重处理。
通常百万级 Token 起步,视任务难度调整。
赋予 Token 顺序信息,使模型感知序列结构。
为每个位置添加固定向量(如 Sinusoidal)。
关注 Token 间的相对距离(如 T5 的 bias)。
## 表示子词。$$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \cdot \gamma + \beta$$ 其中 $\mu$ 为均值,$\sigma$ 为标准差,$\gamma, \beta$ 为可学习参数。
import torch
import torch.nn as nn
class DeepNorm(nn.Module):
def __init__(self, input_dim, hidden_dims, output_dim):
super(DeepNorm, self).__init__()
self.layers = nn.ModuleList()
self.norm_layers = nn.ModuleList()
for i, hidden_dim in enumerate(hidden_dims):
self.layers.append(nn.Linear(input_dim, hidden_dim))
self.norm_layers.append(nn.LayerNorm(hidden_dim))
input_dim = hidden_dim
self.output_layer = nn.Linear(input_dim, output_dim)
def forward(self, x):
for layer, norm_layer in zip(self.layers, self.norm_layers):
x = layer(x)
x = norm_layer(x)
x = torch.relu(x)
x = self.output_layer(x)
return x
$$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$$
$$\text{GeLU}(x) = x \Phi(x) = x \cdot \frac{1}{2} \left(1 + \tanh\left(\sqrt{\frac{2}{\pi}}(x + 0.044715 x^3)\right)\right)$$
$$\text{Swish}(x) = x \cdot \sigma(\beta x)$$
$$\text{GLU}(x) = (xW_1) \odot \sigma(xW_2)$$
注:本文整理了大模型面试的核心技术点,涵盖从基础架构到高级微调的全链路知识。实际面试中请结合最新行业动态补充。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online