大模型领域常见术语与概念通俗解读

大模型与相关技术在近年来飞速发展，各种专业词汇、缩写词层出不穷。为了帮助初学者更直观地理解这些技术名词背后的含义，本文将对大模型领域的核心概念进行通俗化解读。

1. 模型训练阶段与类型

从头训练、自训练、从零训练

这相当于没有经过正规高等教育，由家庭或小型团队自行培养。由于缺乏大规模数据预训练的基础，这类模型的上限通常有限，且高度依赖训练者的资源投入（算力、数据质量）。

预训练基座模型

这是经过海量数据训练的通用模型，类似于接受了系统性的大学教育。它掌握了广泛的语言知识和逻辑推理能力，为后续的具体任务应用打下了坚实基础。无论后续如何微调，基座的质量决定了模型的天花板。

开源大模型 vs 闭源/商用大模型

开源大模型：代码和权重公开，社区可以参与改进。适合企业根据自身需求进行二次开发和部署，灵活性高。
闭源/商用大模型：通过 API 提供服务，不开放底层参数。用户无需关心部署细节，但受限于服务商的更新策略和费用。

本地大模型 vs 云端大模型

本地大模型：部署在私有服务器上，数据不出内网，安全性高，适合处理敏感数据。
云端大模型：运行在服务商的云端，按需调用，成本低但存在数据隐私风险。

2. 模型规格与参数量

参数量（B）

数字后的 "B" 代表十亿（Billions）。例如 7B 表示 70 亿参数。参数量大致反映了模型的容量和知识储备量，同时也决定了运行所需的显存和算力。

小参数模型（如 2.7B）：对硬件要求低，响应快，适合边缘设备或轻量级任务。
大参数模型（如 32B+）：性能更强，能处理复杂推理，但需要高性能 GPU 支持。

3. 模型优化与适配

FT/SFT 微调 / 监督微调

在预训练基础上，使用特定领域的标注数据进行进一步训练。这类似于研究生阶段的深造，让模型掌握特定领域的专业知识或遵循特定的指令格式。

垂直训练大模型

针对特定行业（如医疗、法律）进行定向训练。这类模型在该领域表现优异，但泛化能力较弱，难以胜任跨领域任务。

RAG 检索增强知识库

检索增强生成（Retrieval-Augmented Generation）。当模型遇到训练数据之外的知识时，先从外部知识库中检索相关信息，再结合检索内容生成回答。这解决了大模型知识截止和幻觉问题，类似于给员工配备了一本实时更新的参考手册。

4. 交互与功能机制

Agent 智能体

智能体不仅仅是对话，而是具备规划、工具调用能力的自主系统。它可以拆解任务，调用搜索、代码执行等工具，协同完成复杂工作流。

Prompt 提示词

用户与模型交互的指令集。高质量的 Prompt 能明确任务目标、约束条件和输出格式，显著提升模型表现。

推理

模型根据输入生成输出的过程。推理效果依赖于提示词的清晰度和模型本身的逻辑能力。

幻觉

模型一本正经地胡说八道。当模型缺乏确切信息时，可能会基于概率预测编造事实。RAG 技术和思维链（Chain of Thought）是缓解幻觉的有效手段。

多模态大模型

能够同时处理文本、图像、音频等多种输入输出的模型。例如文生图、图生文等，扩展了 AI 的应用边界。

5. 学习建议

掌握大模型技术需要理论与实践结合。建议从基础概念入手，理解 Transformer 架构原理，随后通过实践项目熟悉微调、RAG 构建及 Agent 开发。随着技术的迭代，保持持续学习的能力比掌握单一工具更为重要。

大模型领域常见术语与概念通俗解读