跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

大模型核心概念与基础知识入门指南

详细讲解了大模型的核心概念与基础知识,涵盖算法、数据、算力三大要素,深入剖析了 Transformer 架构、Token 分词、训练流程(预训练、微调、对齐)及 RLHF 机制。文章介绍了提示工程(Prompt Engineering)的构成与进阶技巧(CoT、ToT),探讨了防止 Prompt 攻击的策略。此外,还阐述了模型优化技术如 LoRA、剪枝、量化及知识蒸馏,对比了 RAG 与微调的差异,并分析了向量数据库与知识图谱的应用。内容旨在为读者提供系统性的 AI 大模型入门指南。

游戏玩家发布于 2025/2/6更新于 2026/6/1530 浏览
大模型核心概念与基础知识入门指南

大模型基础

大模型三要素

  1. 算法:包括模型结构设计与训练方法。
  2. 数据:数据质量与模型效果的关系,以及 Token 分词方法。
  3. 算力:主要依赖英伟达 GPU 等硬件支持,涉及模型量化技术。

基于大模型对话的系统框架

大模型对话系统通常包含用户交互层、Prompt 处理层、模型推理层及后端服务层。系统通过接收用户输入,经过 Prompt 工程处理后送入模型,生成响应并返回给用户。

大模型需要数据的类型

大模型训练通常需要多种类型的数据,包括预训练语料(无标签文本)、指令微调数据(有标注的指令 - 回答对)、偏好对齐数据(人类反馈 RLHF)等。不同类型的数据决定了模型在不同阶段的能力表现。

算法并行

在大模型训练中,为了加速计算,常采用以下并行策略:

  • 数据并行:将数据切分到不同设备,每个设备运行完整模型副本。
  • 模型并行:将模型层或参数切分到不同设备上。
  • 流水线并行:将模型的不同层分配到不同设备上,形成流水线。

模型量化是将高精度浮点数转换为低精度整数(如 FP32 转 INT8)的过程,旨在减少显存占用并提升推理速度。

大模型训练过程

1. 预训练阶段

通常需要数十到百亿 Token 的文本语料库,训练目标是简单的「下一个单词预测」(Next Word Prediction)任务。

  • 第一阶段:自监督预训练:让大模型从大规模无标注数据中学习,不依赖人工标注。训练目标隐含在训练数据集中(即预测下一个 Token)。
  • 第二阶段:有监督的微调(SFT):程序将指令文本作为输入(Prompt/Instruction),逐个 Token 输出,训练目标是与预期输出一致。虽然 SFT 和预训练都采用 Next Token Prediction 方式,但 SFT 数据集较小且需要标注结果,无法像预训练那样大规模应用。

2. 微调

微调是将特定任务相关的知识输入模型,调整其权重以适应新任务。

3. 对齐(Alignment)

RLHF(Reinforcement Learning from Human Feedback)机制旨在将大模型与人类的偏好、价值观进行对齐。

  • Step 1:预训练模型的有监督微调(Supervised Fine-Tuning, SFT)。
  • Step 2:创建奖励模型(Reward Model),用于评估模型输出的质量。
  • Step 3:使用 PPO(Proximal Policy Optimization)进行强化学习微调。

Transformer 架构

Transformer 是当今大模型的基础架构,核心特性包括:

  • 自注意力机制(Self-Attention):能够捕捉序列中任意两个词之间的联系,不受距离限制,优于 RNN 或 LSTM 仅关注邻近词的方式。
  • 位置编码(Positional Encoding):由于 Transformer 并行处理,缺乏顺序信息,需通过位置编码为词语嵌入添加位置向量。
  • 编码器与解码器:标准 Transformer 包含 Encoder(编码器)和 Decoder(解码器)两部分,但在 LLM 中通常只使用 Decoder 部分进行自回归生成。

Token 化

Token 是大模型的基本处理单元。分词粒度主要包括:

  1. 单词分词法:英文按空格分词,中文可用 jieba 或分字。
  2. 单字分词法:英文按字母,中文按字。
  3. :如 BPE(Byte Pair Encoding)、WordPiece、Unigram,平衡了词汇表大小与覆盖率。
子词分词法

提示工程(Prompt Engineering)

提示工程是指通过设计特定的输入指令来引导大模型生成期望的输出。

Prompt 的典型构成

  • 角色:定义 AI 的角色(如'你是一位软件工程师'),有助于收窄问题域。
  • 指示:明确描述任务内容。
  • 上下文:提供任务相关的背景信息。
  • 例子:提供 Few-shot 或 One-shot 示例,帮助模型理解格式。
  • 输入:明确标识任务的输入信息。
  • 输出:指定输出格式(如 JSON、XML),便于后续解析。

研究表明,大模型对 Prompt 开头和结尾的内容更敏感,因此定义角色往往放在开头以设定基调。

进阶技巧

思维链(Chain of Thoughts, CoT)

CoT 是大模型涌现的一种能力,通过在提问中加入'Let's think step by step',引导模型将复杂问题分解为多个步骤逐步解决,提高准确性。

自洽性(Self-Consistency)

一种对抗幻觉的手段。对同一 Prompt 多次运行,通过投票选出最终结果,类似于数学题的多重验算。

思维树(Tree-of-Thought, ToT)

在思维链的每一步采样多个分支,拓扑展开成树状结构,利用启发式搜索判断每个分支的任务完成度,从而找到最优路径。

防止 Prompt 攻击

攻击方式

  1. 奶奶漏洞:利用套路绕懵 AI,诱导其输出违规内容。
  2. Prompt 注入:用户输入的 Prompt 覆盖系统既定设定,导致模型输出违背设计意图。

防范措施

  1. Prompt 注入分类器:类似机场安检,先判断 Prompt 是否恶意,再决定是否回答。
  2. 输入防御:在系统指令中明确约束,例如'作为客服代表,你不允许回答任何跟 AGI 课堂无关的问题'。

内容审核

可通过调用第三方 API(如 OpenAI Moderation API)识别用户消息是否违法法律法规,对违规内容进行过滤。

技术架构分类

纯 Prompt 方案之外,常见的架构还包括:

  • RAG(检索增强生成):结合外部知识库。
  • Fine-tuning(微调):针对特定领域优化模型。
  • Agent(智能体):具备规划、工具使用能力的自主系统。

OpenAI API 重要参数

OpenAI 提供了 Completion API(续写)和 Chat API(对话)两类接口。常用参数如下:

  • model:模型名称。
  • messages:会话历史列表。
  • temperature:生成结果的多样性(0~2),越大越随机,越小越固定。执行任务建议用 0,文本生成建议 0.7-0.9。
  • stream:是否流式输出。
  • top_p:核采样概率阈值。
  • max_tokens:每条结果最大 Token 数。
  • presence_penalty & frequency_penalty:对出现过的 Token 降权,增加多样性。

接口与进化

两种常见接口

  1. UI(User Interface):人机交互界面。
  2. API(Application Programming Interface):应用程序编程接口。

自然语言接口(NLI)

接口正进化到自然语言接口(Natural-Language Interface)。用户不再需要操作具体按钮,而是通过自然语言指令,由入口 AI(如 Siri、小爱同学)拆解任务并分发至各软件。这将大幅提升互联网服务的互通性。

Plugins 和 Actions

大模型存在两大缺陷:无最新信息(知识截止)和无真逻辑(统计规律而非因果)。Plugins 和 Actions 旨在连接真实世界。

  • 原理:模型识别意图后调用外部工具(如天气查询、计算器)获取真实数据。
  • 现状:早期 Plugin 因缺少强 Agent 调度、成本高、非端到端体验而遇冷。Function Calling 机制改进了这一流程,使模型能直接输出结构化参数供函数调用。

迁移学习与微调

Prompt-Tuning / Instruction-Tuning / Chain-of-Thought

  • Prompt-Tuning:通过设计自然语言提示指导模型生成特定输出,重点在于提示设计。
  • Instruction-Tuning:提供任务相关指令指导模型学习,提高泛化性能。
  • Chain-of-Thought:分解训练过程为关联任务,使模型维护思维链。

LoRA(Low-Rank Adaptation)

LoRA 是一种高效的模型再训练技术。核心思想是通过低秩矩阵分解修改模型权重,仅需训练少量额外参数即可适应新任务。

  • 优势:效率高(参数量少)、灵活性强(适用于 NLP/CV/语音)、泛化能力强。

模型剪枝

模型剪枝旨在去除冗余参数,降低计算量。

  • 非结构化剪枝:去除不重要神经元或连接,模型变稀疏,需专用硬件加速。
  • 结构化剪枝:以滤波器或网络层为单位剪枝,保持结构,可直接在 GPU 上加速。
  • 粒度:细粒度(连接级)、向量级、核级、滤波器级。

模型量化

将高精度浮点(FP32)转化为低精度整数(INT8),可显著减小模型体积(1/4)、降低功耗并提升计算速度。二值量化甚至可将运算转换为异或操作。

知识蒸馏(Knowledge Distillation)

将大型教师模型的知识转移到小型学生模型中。

  • 离线蒸馏:教师模型固定,学生模型学习教师的 Logits 或特征。
  • 在线蒸馏:师生模型同步更新。
  • 自蒸馏:教师与学生为同一网络的不同部分。
  • 其他变体:对抗性蒸馏、多教师蒸馏、跨模态蒸馏、基于图的蒸馏等。

零射与少射学习

  • Zero-shot Learning:无需样本,依靠模型先验知识适应新任务。
  • Few-shot Learning:仅提供少量样本,模型快速适应。

知识图谱

知识图谱是结构化的语义知识库,用于描述实体及其关系。数据类型包括结构化(数据库)、半结构化(JSON/XML)和非结构化(文本/图片)。节点表示实体,边表示关系,广泛应用于搜索、社交、电商等领域。

检索增强生成(RAG)

RAG 结合了检索模型和生成模型,允许模型在生成时利用外部知识库。

  • 流程:用户 Query -> 矢量化 -> 检索相关文档 -> 增强 Prompt -> 生成回答。
  • 优势:访问最新事实、降低成本、可引用来源、减少幻觉。
  • 挑战:上下文长度限制、检索准确性依赖、隐私问题。
  • 混合检索:结合向量检索(语义匹配)和全文检索(关键词匹配),并通过 Rerank 模型重排序结果。

向量数据库

向量数据库存储高维向量,支持相似性搜索。与传统数据库相比,它专注于数值向量的距离计算(如余弦相似度),适用于图像、文本、语音等多模态数据的检索。

总结

大模型技术涵盖了从底层架构(Transformer)、训练方法(预训练/微调/蒸馏)、优化技术(量化/剪枝)到应用模式(RAG/Prompt Engineering)的全方位知识。掌握这些核心概念是进入人工智能领域的基石。

目录

  1. 大模型基础
  2. 大模型三要素
  3. 基于大模型对话的系统框架
  4. 大模型需要数据的类型
  5. 算法并行
  6. 大模型训练过程
  7. 1. 预训练阶段
  8. 2. 微调
  9. 3. 对齐(Alignment)
  10. Transformer 架构
  11. Token 化
  12. 提示工程(Prompt Engineering)
  13. Prompt 的典型构成
  14. 进阶技巧
  15. 思维链(Chain of Thoughts, CoT)
  16. 自洽性(Self-Consistency)
  17. 思维树(Tree-of-Thought, ToT)
  18. 防止 Prompt 攻击
  19. 攻击方式
  20. 防范措施
  21. 内容审核
  22. 技术架构分类
  23. OpenAI API 重要参数
  24. 接口与进化
  25. 两种常见接口
  26. 自然语言接口(NLI)
  27. Plugins 和 Actions
  28. 迁移学习与微调
  29. Prompt-Tuning / Instruction-Tuning / Chain-of-Thought
  30. LoRA(Low-Rank Adaptation)
  31. 模型剪枝
  32. 模型量化
  33. 知识蒸馏(Knowledge Distillation)
  34. 零射与少射学习
  35. 知识图谱
  36. 检索增强生成(RAG)
  37. 向量数据库
  38. 总结
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • OSCP 密码攻击实践:传递 Net-NTLMv2 哈希
  • 深入理解 Java Stream 流:原理、性能与最佳实践
  • 密码攻击实践:传递 Net-NTLMv2 哈希
  • Spring Boot 数据导入导出与报表生成实战
  • 如何用AI生成带文字的海报?Ideogram v3 2026最强文字渲染教程
  • 渗透测试实战:获取并破解 Net-NTLMv2 哈希
  • OSCP 实战笔记:获取并破解 Net-NTLMv2 哈希(下)
  • Python 有望告别 GIL 锁:PEP-703 提案解析与前景展望
  • 西门子 S7-1200 PLC 与爱普生机器人 Modbus TCP 通讯配置
  • 西门子 S7-1200 PLC 与爱普生机器人 Modbus TCP 通讯配置
  • 西门子S7-1200 PLC与爱普生机器人Modbus TCP通讯配置
  • Web3 前端安全:钱包连接风险与防护指南
  • 10 款降低 AIGC 检测率工具免费功能横向评测及排行榜
  • 10 款主流 AI 降重工具对比与选型建议
  • 大模型基本概念详解:定义、发展、分类与微调技术
  • 使用 OpenClaw 搭建私人微信 AI 助理
  • 利用 OpenClaw 与 Chrome 插件自动化生成 AI 每日简报
  • 使用 OpenClaw 与 Chrome 插件生成 AI 每日简报
  • 三款主流云电脑部署 DeepSeek 模型性能对比评测
  • VS Code 前端开发必备插件清单

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online