大模型技术通识与基础指南：生态、模型及微调方法

大模型技术通识与基础指南

一、大模型生态概述

当前语言类大模型主要包括 GPT-3、GPT-3.5、GPT-4 系列。OpenAI 在训练 GPT-3 时，同时训练了参数规模与复杂度各异的 A、B、C、D 四项基座模型，分别对应 ada、babbage、curie 和 davinci。这四个模型并非 GPT-3 的微调版本，而是独立训练的基座模型，其参数规模和复杂程度按 A-B-C-D 顺序递增。尽管不如 GPT-3.5 和 GPT-4 知名，但它们构成了 OpenAI 早期功能最丰富、API 种类最多的模型生态。

谷歌 PaLM2 系列同样包含 Gecko、Otter、Bison、Unicorn 四项模型，其中 Gecko 专为移动端设计，计划集成至下一代安卓系统。

二、多模态与专用模型

1. 图像多模态模型

最新版为 DALL·E V2，基于 GPT-3 开发，拥有约 120 亿参数。其核心在于将图像视为一种语言，通过 Token 化与文本 Token 一同训练，利用大语言模型的语义理解能力生成图像。

2. 语音识别模型

Whisper v2-large 是 Whisper 的升级版，支持多语言语音识别、翻译及语言检测。作为少数开源模型之一，它基于 68 万小时的多语言监督数据训练。支持本地部署或 API 调用，后者在速度上通常有优化但涉及费用。

3. 文本向量化模型

Embedding 模型（如 text-embedding-ada-002）用于将文本转化为高维向量。这使得计算机能通过向量距离计算语义相似度，应用于搜索、聚类、推荐等任务。例如，'老鼠找吃的'与'奶酪'的向量距离较近，而句式相似但语义不同的句子距离则较远。

4. 审查与编程模型

Moderation 模型用于内容安全审核，检测仇恨、暴力、自残等违规内容。Codex 模型基于 GitHub 代码库训练，擅长 Python 等多种编程语言，能将自然语言转换为代码。目前 Codex 功能已整合进 GPT-3.5，处于弃用状态，但编程能力已成为通用大模型的核心特性。

三、命名规则与 API 管理

OpenAI 模型命名遵循特定规范：

功能微调模型：如 ada-code-search-code（基于 ada 微调的编程模型）。
版本编号模型：如 text-davinci-001（达芬奇文本模型 1 号）、text-embedding-ada-002。
停止维护但仍可用：部分旧版 API 如 GPT-3.5-turbo-0301 虽停止维护，仍可继续使用。

开发者可在个人中心查看账户可用的全部 API 地址及速率限制。

四、开源大模型评估与应用

1. 性能评估榜单

Hugging Face Open LLM Leaderboard：提供开源模型的综合排名。
LMSYS Chatbot Arena：通过匿名 PK 比较模型性能，涵盖开源与闭源模型。国内清华大学团队开发的 ChatGLM-6B 曾位列前列。

2. 代表性开源模型

Falcon：阿联酋 TII 研究所开源，400 亿参数，性能超越 LLaMA，但不支持中文。
ChatGLM 系列：由清华大学团队开发。ChatGLM-130B 在亚洲入选斯坦福评测，准确性接近 GPT-3 Davinci。ChatGLM-6B 仅 62 亿参数，支持中英双语，可在消费级显卡（如 RTX 2060）上运行，显存需求经量化后可低至 6GB。

3. 多模态扩展

VisualGLM-6B 基于 ChatGLM-6B 构建，引入 BLIP2-Qformer 连接视觉与语言模型，支持图文对话。相比 DALL·E 将整图离散化为 Token，VisualGLM 更关注视觉语义信息对齐，效率更高但可能丢失底层细节。

五、模型微调策略

微调是适配特定任务的关键步骤，主要分为三类：

大模型技术通识与基础指南：生态、模型及微调方法