大模型技术通识与基础指南
一、大模型生态概述
当前语言类大模型主要包括 GPT-3、GPT-3.5、GPT-4 系列。OpenAI 在训练 GPT-3 时,同时训练了参数规模与复杂度各异的 A、B、C、D 四项基座模型,分别对应 ada、babbage、curie 和 davinci。这四个模型并非 GPT-3 的微调版本,而是独立训练的基座模型,其参数规模和复杂程度按 A-B-C-D 顺序递增。尽管不如 GPT-3.5 和 GPT-4 知名,但它们构成了 OpenAI 早期功能最丰富、API 种类最多的模型生态。
谷歌 PaLM2 系列同样包含 Gecko、Otter、Bison、Unicorn 四项模型,其中 Gecko 专为移动端设计,计划集成至下一代安卓系统。
二、多模态与专用模型
1. 图像多模态模型
最新版为 DALL·E V2,基于 GPT-3 开发,拥有约 120 亿参数。其核心在于将图像视为一种语言,通过 Token 化与文本 Token 一同训练,利用大语言模型的语义理解能力生成图像。
2. 语音识别模型
Whisper v2-large 是 Whisper 的升级版,支持多语言语音识别、翻译及语言检测。作为少数开源模型之一,它基于 68 万小时的多语言监督数据训练。支持本地部署或 API 调用,后者在速度上通常有优化但涉及费用。
3. 文本向量化模型
Embedding 模型(如 text-embedding-ada-002)用于将文本转化为高维向量。这使得计算机能通过向量距离计算语义相似度,应用于搜索、聚类、推荐等任务。例如,'老鼠找吃的'与'奶酪'的向量距离较近,而句式相似但语义不同的句子距离则较远。
4. 审查与编程模型
Moderation 模型用于内容安全审核,检测仇恨、暴力、自残等违规内容。Codex 模型基于 GitHub 代码库训练,擅长 Python 等多种编程语言,能将自然语言转换为代码。目前 Codex 功能已整合进 GPT-3.5,处于弃用状态,但编程能力已成为通用大模型的核心特性。
三、命名规则与 API 管理
OpenAI 模型命名遵循特定规范:
- 功能微调模型:如
ada-code-search-code(基于 ada 微调的编程模型)。 - 版本编号模型:如
text-davinci-001(达芬奇文本模型 1 号)、text-embedding-ada-002。 - 停止维护但仍可用:部分旧版 API 如
GPT-3.5-turbo-0301虽停止维护,仍可继续使用。
开发者可在个人中心查看账户可用的全部 API 地址及速率限制。
四、开源大模型评估与应用
1. 性能评估榜单
- Hugging Face Open LLM Leaderboard:提供开源模型的综合排名。
- LMSYS Chatbot Arena:通过匿名 PK 比较模型性能,涵盖开源与闭源模型。国内清华大学团队开发的 ChatGLM-6B 曾位列前列。
2. 代表性开源模型
- Falcon:阿联酋 TII 研究所开源,400 亿参数,性能超越 LLaMA,但不支持中文。
- ChatGLM 系列:由清华大学团队开发。ChatGLM-130B 在亚洲入选斯坦福评测,准确性接近 GPT-3 Davinci。ChatGLM-6B 仅 62 亿参数,支持中英双语,可在消费级显卡(如 RTX 2060)上运行,显存需求经量化后可低至 6GB。
3. 多模态扩展
VisualGLM-6B 基于 ChatGLM-6B 构建,引入 BLIP2-Qformer 连接视觉与语言模型,支持图文对话。相比 DALL·E 将整图离散化为 Token,VisualGLM 更关注视觉语义信息对齐,效率更高但可能丢失底层细节。
五、模型微调策略
微调是适配特定任务的关键步骤,主要分为三类:


