-
llama 输入句子长度理论上可以无限长吗?
受硬件资源和模型设计限制。理论上资源足够可处理很长句子,但实际因内存和处理能力限制,长度有限制。开发者需根据需求和配置确定合适长度。
-
什么是 LLMs 复读机问题?
指模型生成文本时重复之前已生成的内容,导致缺乏多样性和创造性。
-
为什么会出现 LLMs 复读机问题?
因素包括训练数据中的重复模式、长序列注意力机制失效、或对过去信息的过度依赖。
-
如何缓解 LLMs 复读机问题?
- 数据增强:增加训练数据多样性。
- 模型改进:改进结构和注意力机制。
- 生成策略:采用多样化策略,如抽样生成。
-
什么情况用 Bert 模型,什么情况用 LLaMA、ChatGLM 类大模型?
BERT 用于理解文本深层语义的任务(分类、NER)。LLaMA 和 ChatGLM 适用于生成文本或复杂语言理解(对话、生成)。选择取决于任务需求和资源。
-
各个专业领域是否需要各自的大模型来服务?
需要。专业领域大模型针对特定语言和知识优化,提供更准确回答。
-
如何让大模型处理更长的文本?
使用 Transformer 架构、内存机制(外部记忆)、分块方法。
-
如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
全参数微调通常需要大量显存,取决于模型规模、批量大小和硬件。例如 GPT-3 可能需要多个 GPU,每个几十 GB 显存。实际操作需试错确定。
-
为什么 SFT 之后感觉 LLM 傻了?
可能原因:过拟合、数据质量不高、微调强度不够导致未充分适应新任务。
-
SFT 指令微调数据如何构建?
收集指令和数据对,清洗预处理,数据增强,格式化模型所需格式。
-
领域模型 Continue PreTrain 数据选取?
基于领域特点和应用需求,选取大量、高质量、多样化的领域文本数据(文献、报告、新闻等),避免偏见和不平衡。
-
领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?
多任务学习、控制微调强度、定期回炉训练、知识蒸馏。
-
领域模型 Continue PreTrain,如何让模型在预训练过程中就学习到更多的知识?
数据增强、知识注入(结构化数据/图谱)、多模态学习。
-
进行 SFT 操作的时候,基座模型选用 Chat 还是 Base?
取决于任务需求。对话优化选 Chat,注重理解和生成选 Base。根据实验结果选择。
-
领域模型微调指令&数据输入格式要求?
指令清晰具体,数据输入格式匹配模型接口(如字符串、分词、编码)。
-
领域模型微调领域评测集构建?
确保全面反映领域任务需求和性能指标,收集真实数据,确保样本多样性和代表性,设计定制评价指标。
-
领域模型词表扩增是不是有必要的?
通常有必要,尤其是专业术语多时。需谨慎进行,避免引入噪音。
-
如何训练自己的大模型?
选择预训练目标、收集准备数据、选择架构、定义流程、训练、评估调优、微调优化。
-
训练中文大模型有啥经验?
使用高质量中文数据,考虑语言特点(词序、语法),使用适合中文的架构,处理特殊字符,多任务学习。
-
指令微调的好处?
提高特定任务性能,学习具体实用知识,减少大规模标注数据依赖,快速适应不同场景。
-
预训练和微调哪个阶段注入知识的?
预训练学习通用知识,微调学习特定领域知识。知识注入主要发生在微调阶段。
-
想让模型学习某领域或行业知识,是应该预训练还是应该微调?
建议先预训练学习通用语言知识,再通过微调注入特定领域知识。
-
多轮对话任务如何微调模型?
收集多轮对话数据,预处理,设计微调目标(序列到序列),微调生成连贯回复。
-
微调后的模型出现能力劣化,灾难性遗忘是怎么回事?
模型学习了过多特定任务知识而忽略通用知识。解决方法:多任务学习、控制强度、定期回炉。
-
微调模型需要多大显存?
取决于模型规模、任务复杂度、数据量。通常比预训练少,但需评估调整。
-
大模型 LLM 进行 SFT 操作的时候在学习什么?
特定领域语言模式和知识、生成策略、对话连贯性、指令理解和执行能力。
-
预训练和 SFT 操作有什么不同?
预训练在无标签大数据上学习通用表示,无需人工标注。SFT 在有标签数据集上适应特定任务,需要人工标注。
-
样本量规模增大,训练出现 OOM 报错,怎么解决?
增加显存设备、调整批量大小、使用模型/数据并行、动态批处理。
-
大模型 LLM 进行 SFT 如何对样本进行优化?
数据增强、样本选择、样本权重、平衡采样。
-
模型参数迭代实验步骤?
选择初始参数、定期评估、调整参数(学习率等)、重复直到达到目标。
-
为什么需要进行参选微调?参数微调的原因有哪些?
提高计算效率、减少过拟合风险、提高泛化能力。
-
模型参数微调的方式有那些?你最常用哪些方法?
权重共享、参数掩码、参数分解、参数共享微调。
-
prompt tuning 和 prefix tuning 在微调上的区别是什么?
Prompt Tuning:在输入末尾添加可学习提示。Prefix Tuning:在输入开头添加可学习连续前缀表示。
-
LLaMA-adapter 如何实现稳定训练?
适配器初始化、正则化、逐步学习、选择合适的优化器。
-
LoRA 原理与使用技巧有那些?
LoRA 通过低秩分解减少更新参数。技巧包括:适配器初始化、低秩分解、逐步学习、正则化。
-
LoRA 微调优点是什么?
参数高效、计算效率高、模型稳定性好、性能提升。
-
AdaLoRA 的思路是怎么样的?
自适应 LoRA,根据任务和性能动态调整适配器参数。
-
LoRA 权重合入 chatglm 模型的方法?
在 Transformer 层添加 LoRA 适配器,使用预训练参数初始化,训练更新适配器参数,保持预训练参数不变。
-
P-tuning 讲一下?与 P-tuning v2 区别在哪里?优点与缺点?
P-tuning:添加可学习连续前缀。P-tuning v2:添加多个连续前缀。v2 更能捕捉信息,但需更多资源。
-
训练一个通用大模型的流程有那些?
数据收集、预处理、模型设计、预训练目标、训练、评估、微调优化。
-
DDO 与 DPO 的区别是什么?
DDO:同时优化两个数据集目标(通用 + 领域)。DPO:同时使用两个提示(通用 + 领域)。
-
是否接触过 embeding 模型的微调方法?
涉及嵌入层初始化、调整、知识注入。
-
有哪些省内存的大语言模型训练/微调/推理方法?
模型剪枝、知识蒸馏、量化、模型并行、数据并行、动态批处理。
-
大模型 (LLMs) 评测有那些方法?如何衡量大模型的效果?
方法:准确性、泛化能力、计算效率、安全性、多样性、人类评估。衡量:自动指标(BLEU 等)、任务指标、用户反馈。
-
如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
减少数据量、优化流程、并行训练、提前停止、知识蒸馏。
-
模型训练的数据集问题:一般数据集哪里找?
公开数据集、特定领域数据集、合成数据、用户生成数据、商业数据。
-
为什么需要进行模型量化及原理?
将高精度浮点数转为低精度整数,减少大小、提高效率、降低内存。原理是低精度格式保持性能的同时减少位数。
-
大模型词表扩充的方法及工具?
方法:新增词汇、数据驱动、词汇映射。工具:Hugging Face Transformers、SentencePiece、Moses。
-
大模型应用框架及其功能?
功能:模型加载保存、数据处理、训练、部署、API 接口。框架:Hugging Face Transformers、PyTorch、TensorFlow。
-
搭建大模型应用遇到过那些问题?如何解决的?
问题:资源限制、稳定性、数据质量、部署挑战。解决:资源优化、调试、数据处理、部署策略。
-
如何提升大模型的检索效果?
优化索引、特征工程、模型选择、训练策略、评估指标。
-
是否了解上下文压缩方法?
模型剪枝、知识蒸馏、权重共享、低秩分解。
-
如何实现窗口上下文检索?
文本分块、索引构建、查询处理、上下文检索、结果生成。
-
开源的 RAG 框架有哪些,你比较了解?
Hugging Face's RAG、Google's RAG、Microsoft's RAG。
-
大模型应用框架 LangChain 和 Llamalndex 各自的优势有那些?
易用性、灵活性、高效性、集成性、社区支持。
-
向量库有那些?各自优点与区别?
TensorFlow、PyTorch、NumPy、SciPy。优点:高效性、灵活性、社区支持。区别在于设计哲学、API 和使用场景。
-
向量数据库有那些?各自优点与区别?
Milvus(开源、可扩展)、Faiss(高效搜索库)、Vespa(分布式存储)、Pinecone(托管服务)、Weaviate(开源搜索引擎)。
-
使用外部知识数据库时需要对文档进行分块,如何科学的设置文档块的大小?
根据查询需求、检索效率、资源需求、用户体验确定。建议实验评估。
-
LLMs 受到上下文长度的限制,如果检索到的文档带有太多噪声,该如何解决?
上下文修剪、知识蒸馏、过滤去噪、强化学习、数据增强。
-
RAG(检索增强生成) 对于大模型来说,有什么好处?
提高生成质量、增强上下文关联性、提高鲁棒性、减少训练数据需求、提高泛化能力。
-
Self-attention 的公式及参数量?为什么用多头?为什么要除以根号 d?
Self-attention 允许为序列中每个元素分配不同注意力权重。公式涉及 Q、K、V 矩阵乘法及 softmax。多头注意力允许在不同子空间学习信息。除以根号 D 防止内积过大导致 softmax 梯度极小,保证数值稳定。