1. 前言
1.1 基础模型研究
2023 年,随着 LLM(Large Language Model)技术的发展,中国模型研究机构的开源模型迎来了爆发式增长。
2023 年 3 月,智谱 AI 发布了 ChatGLM-6B 系列。ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。目前,ChatGLM 已更新到第三代,并在多模态推出了 CogVLM 系列,在代码领域推出了 CodeGeex 系列模型。
2023 年 6 月,百川智能发布了百川 -7B 模型。该模型基于 Transformer 结构,在约 1.2 万亿 tokens 上训练了 70 亿参数,支持中英双语,上下文窗口长度为 4096。百川是较早推出预训练模型的公司之一,推动了国内基于预训练 base 模型的发展。后续发布了 13B 模型及百川 2 系列,同步开源 base 和 chat 两个版本。
2023 年 7 月,上海人工智能实验室联合多家机构发布了'书生通用大模型体系',包括书生·多模态、书生·浦语和书生·天际等三大基础模型,以及首个面向大模型研发与应用的全链条开源体系。该实验室不仅开源了模型权重,还在模型、数据、工具和评测等层面进行全方位开源。
2023 年 8 月,阿里巴巴开源了通义千问 7B 模型,随后相继开源了 1.8B、14B、72B 的 base 和 chat 模型,并提供了对应的 int4 和 int8 量化版本。在多模态场景,千问也开源了 qwen-vl 和 qwen-audio 两种视觉和语音的多模态模型,实现了'全尺寸、全模态'开源。Qwen-72B 提升了开源大模型的尺寸和性能,填补了国内空白。
2023 年 10 月,昆仑万维发布百亿级大语言模型「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集 Skypile/Chinese-Web-Text-150B。
2023 年 11 月,01-AI 公司发布了 Yi 系列模型,其参数规模介于 60 亿至 340 亿之间,训练数据量达到了 300 亿 token。这些模型在公开排行榜及基准测试中的表现均超过了之前的模型。
1.2 模型定制新范式
性能卓越的模型和行业定制模型通常需要在预训练模型上,通过数据进行多次微调得来。过去一年中,来自社区的贡献者通过模型微调的方式,持续在各个方向做探索,回馈社区,贡献了更加繁荣的行业模型生态。
IDEA Lab 发布的姜子牙通用大模型是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。
OpenBuddy 致力于面向全球用户提供强大的多语言聊天模型,强调对话式 AI 对英语、中文和其他语言的无缝多语言支持。
Codefuse 和 wisdomshell 专注于代码领域,希望提升开发者效率,让代码使用更加简单,在各类评测中效果远超基准。
FinGLM 和通义金融模型专注在金融领域,基于 GLM 模型和千问模型,提供了金融年报解读、金融名词解释等金融行业垂直能力。
浙江大学、东北大学、大连理工、华东理工大学、南方科技大学、北京大学袁粒项目组、香港中文大学 openmmlab 等高校实验室通过微调预训练模型,推动开源模型在司法行业、教育行业、医疗行业、视频领域、全模态等方向发展。
2. LLM 类型介绍
2.1 Base 模型和 Chat 模型
我们通常会看到某模型研发机构开源了 base 模型和 chat 模型,两者的区别如下:
首先,所有的大语言模型(LLM)的工作方式都是接收一些文本,然后预测最有可能出现在其后面的文本。
- Base 模型:也就是基础模型,是在海量不同文本上训练出来的预测后续文本的模型。后续文本未必是对指令和对话的响应,它更侧重于文本补全。
- Chat 模型:也就是对话模型,是在 base 基础上通过对话记录(指令 - 响应)继续做微调和强化学习,让它接受指令和用户对话时,续写出来的是遵循指令的、人类预期的 assistant 的响应内容。
2.2 多模态模型
多模态 LLM 将文本和其他模态的信息结合起来,比如图像、视频、音频和其他感官数据。多模态 LLM 接受了多种类型的数据训练,有助于 transformer 找到不同模态之间的关系,完成一些新的 LLM 不能完成的任务,比如图片描述、音乐解读、视频理解等。
2.3 Agent 模型
LLM 具备 agent 大脑的能力,与若干关键组件协作,包括:
- 规划(Planning):子目标拆解,纠错,反思和完善。
- 记忆(Memory):短期记忆(上下文,长窗口),长期记忆(通过搜索或者向量引擎实现)。
- 工具使用(Tool Use):模型学习调用外部 API 获取额外的能力。


