LLM 大模型基础知识与核心概念详解

1. 前言

随着人工智能技术的飞速发展，大型语言模型（Large Language Model, LLM）已成为当前技术领域的热点。2023 年以来，全球开源社区迎来了爆发式增长，众多研究机构和企业发布了性能卓越的开源模型，推动了 AI 技术的普及与应用。

1.1 基础模型发展回顾

近年来，国内模型研究机构的开源模型取得了显著进展：

智谱 AI：发布了 ChatGLM-6B 系列，基于 GLM 架构，支持中英双语问答。结合量化技术，用户可在消费级显卡上部署。后续推出了多模态 CogVLM 系列及代码领域 CodeGeex 系列。
百川智能：发布百川 -7B 模型，基于 Transformer 结构，在约 1.2 万亿 tokens 上训练，支持中英双语。后续发布了 13B 及百川 2 系列，同步开源 base 和 chat 版本。
上海人工智能实验室：发布'书生通用大模型体系'，包括书生·浦语等基础模型，并在模型、数据、工具和评测层面进行全方位开源。
阿里巴巴：开源通义千问（Qwen）系列，覆盖 1.8B 至 72B 多种尺寸，并推出视觉和语音多模态模型，实现了'全尺寸、全模态'开源。
昆仑万维：发布天工 Skywork-13B 系列，配套开源了超大高质量中文数据集 Skypile。
01-AI：发布 Yi 系列模型，参数规模介于 60 亿至 340 亿之间，在多项基准测试中表现优异。

1.2 模型定制新范式

行业定制模型通常需要在预训练模型基础上通过微调实现。社区贡献者通过微调方式，持续在各个方向探索，丰富了行业模型生态：

通用大模型：如 IDEA Lab 发布的姜子牙模型，具备翻译、编程、文本分类等能力。
多语言模型：OpenBuddy 强调对英语、中文等多语言的无缝支持。
代码领域：Codefuse 和 wisdomshell 专注于提升开发者效率。
垂直领域：FinGLM 和通义金融模型专注金融行业；高校实验室推动开源模型在司法、教育、医疗等领域的应用。

2. LLM 类型介绍

2.1 Base 模型和 Chat 模型

Base 模型：基础模型是在海量不同文本上训练出来的预测后续文本的模型。其输出未必是对指令的响应，更多是文本续写。
Chat 模型：对话模型是在 Base 基础上通过对话记录（指令 - 响应）继续做微调和强化学习，使其能够遵循指令，生成符合人类预期的助手响应内容。

2.2 多模态模型

多模态 LLM 将文本与其他模态信息（图像、视频、音频等）结合，接受多种类型数据训练，有助于找到不同模态间的关系，完成图片描述、音乐解读、视频理解等任务。

2.3 Agent 模型

LLM 具备 Agent 大脑的能力，与关键组件协作：

规划（Planning）：子目标拆解、纠错、反思和完善。
记忆（Memory）：短期记忆（上下文）、长期记忆（通过搜索或向量引擎实现）。
工具使用（Tool Use）：模型学习调用外部 API 获取额外能力。

2.4 Code 模型

Code 模型在预训练和 SFT 中加入了更多代码数据占比，擅长代码补齐、纠错及零样本编程任务。针对不同编程语言（如 Python、Java）也有专业模型。

3. 使用 LLM 及优化输出效果

大语言模型根据跨学科海量文本数据训练而成，接近'AGI'。为了更好地使用 LLM，需掌握以下关键技术。

3.1 模型推理

模型推理指利用训练好的模型进行运算，利用输入的新数据一次性获得结论的过程。

LLM 大模型基础知识与核心概念详解

LLM 大模型基础知识与核心概念详解

1. 前言

1.1 基础模型发展回顾

1.2 模型定制新范式

2. LLM 类型介绍

2.1 Base 模型和 Chat 模型

2.2 多模态模型

2.3 Agent 模型

2.4 Code 模型

3. 使用 LLM 及优化输出效果

3.1 模型推理

更多推荐文章

相关免费在线工具

3.2 Prompt（提示词）

3.3 Few-shot Prompt

3.4 LLM + RAG

3.5 模型微调

3.6 模型量化

3.7 模型评估

3.8 模型推理加速和部署

3.9 模型应用 - Agent

4. 学习建议与未来展望

更多推荐文章

相关免费在线工具

LLM 大模型基础知识与核心概念详解

LLM 大模型基础知识与核心概念详解

1. 前言

1.1 基础模型发展回顾

1.2 模型定制新范式

2. LLM 类型介绍

2.1 Base 模型和 Chat 模型

2.2 多模态模型

2.3 Agent 模型

2.4 Code 模型

3. 使用 LLM 及优化输出效果

3.1 模型推理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 Prompt（提示词）

3.3 Few-shot Prompt

3.4 LLM + RAG

3.5 模型微调

3.6 模型量化

3.7 模型评估

3.8 模型推理加速和部署

3.9 模型应用 - Agent

4. 学习建议与未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具