LLM 大模型基础知识与核心概念详解
1. 前言
随着人工智能技术的飞速发展,大型语言模型(Large Language Model, LLM)已成为当前技术领域的热点。2023 年以来,全球开源社区迎来了爆发式增长,众多研究机构和企业发布了性能卓越的开源模型,推动了 AI 技术的普及与应用。
1.1 基础模型发展回顾
近年来,国内模型研究机构的开源模型取得了显著进展:
- 智谱 AI:发布了 ChatGLM-6B 系列,基于 GLM 架构,支持中英双语问答。结合量化技术,用户可在消费级显卡上部署。后续推出了多模态 CogVLM 系列及代码领域 CodeGeex 系列。
- 百川智能:发布百川 -7B 模型,基于 Transformer 结构,在约 1.2 万亿 tokens 上训练,支持中英双语。后续发布了 13B 及百川 2 系列,同步开源 base 和 chat 版本。
- 上海人工智能实验室:发布'书生通用大模型体系',包括书生·浦语等基础模型,并在模型、数据、工具和评测层面进行全方位开源。
- 阿里巴巴:开源通义千问(Qwen)系列,覆盖 1.8B 至 72B 多种尺寸,并推出视觉和语音多模态模型,实现了'全尺寸、全模态'开源。
- 昆仑万维:发布天工 Skywork-13B 系列,配套开源了超大高质量中文数据集 Skypile。
- 01-AI:发布 Yi 系列模型,参数规模介于 60 亿至 340 亿之间,在多项基准测试中表现优异。
1.2 模型定制新范式
行业定制模型通常需要在预训练模型基础上通过微调实现。社区贡献者通过微调方式,持续在各个方向探索,丰富了行业模型生态:
- 通用大模型:如 IDEA Lab 发布的姜子牙模型,具备翻译、编程、文本分类等能力。
- 多语言模型:OpenBuddy 强调对英语、中文等多语言的无缝支持。
- 代码领域:Codefuse 和 wisdomshell 专注于提升开发者效率。
- 垂直领域:FinGLM 和通义金融模型专注金融行业;高校实验室推动开源模型在司法、教育、医疗等领域的应用。
2. LLM 类型介绍
2.1 Base 模型和 Chat 模型
- Base 模型:基础模型是在海量不同文本上训练出来的预测后续文本的模型。其输出未必是对指令的响应,更多是文本续写。
- Chat 模型:对话模型是在 Base 基础上通过对话记录(指令 - 响应)继续做微调和强化学习,使其能够遵循指令,生成符合人类预期的助手响应内容。
2.2 多模态模型
多模态 LLM 将文本与其他模态信息(图像、视频、音频等)结合,接受多种类型数据训练,有助于找到不同模态间的关系,完成图片描述、音乐解读、视频理解等任务。
2.3 Agent 模型
LLM 具备 Agent 大脑的能力,与关键组件协作:
- 规划(Planning):子目标拆解、纠错、反思和完善。
- 记忆(Memory):短期记忆(上下文)、长期记忆(通过搜索或向量引擎实现)。
- 工具使用(Tool Use):模型学习调用外部 API 获取额外能力。
2.4 Code 模型
Code 模型在预训练和 SFT 中加入了更多代码数据占比,擅长代码补齐、纠错及零样本编程任务。针对不同编程语言(如 Python、Java)也有专业模型。
3. 使用 LLM 及优化输出效果
大语言模型根据跨学科海量文本数据训练而成,接近'AGI'。为了更好地使用 LLM,需掌握以下关键技术。
3.1 模型推理
模型推理指利用训练好的模型进行运算,利用输入的新数据一次性获得结论的过程。


