一、大模型的分类
按照输入数据类型的不同,大模型主要可以分为以下三大类:
-
语言大模型(NLP):是指在自然语言处理(Natural Language Processing, NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:GPT 系列(OpenAI)、Bard(Google)、文心一言(百度)。
-
视觉大模型(CV):是指在计算机视觉(Computer Vision, CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:ViT 系列(Google)、华为盘古 CV、InternVL(商汤)。
-
多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:DALL-E(OpenAI)、Midjourney、Stable Diffusion。
按照应用领域的不同,大模型主要可以分为 L0、L1、L2 三个层级:
-
通用大模型 L0:是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可'举一反三'的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于 AI 完成了'通识教育'。
-
行业大模型 L1:是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于 AI 成为'行业专家'。
-
垂直大模型 L2:是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。
二、大模型的泛化与微调
模型的泛化能力:是指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。
什么是模型微调:给定预训练模型(Pre-trained model),基于模型进行微调(Fine-tuning)。相对于从头开始训练(Training a model from scratch),微调可以省去大量计算资源和计算时间,提高计算效率,甚至提高准确率。
模型微调的基本思想是使用少量带标签的数据对预训练模型进行再次训练,以适应特定任务。在这个过程中,模型的参数会根据新的数据分布进行调整。这种方法的好处在于,它利用了预训练模型的强大能力,同时还能够适应新的数据分布。因此,模型微调能够提高模型的泛化能力,减少过拟合现象。
常见的模型微调方法:
- Full Fine-tuning:这是最常用的微调方法。通过更新预训练模型的所有参数来适应新任务。虽然效果好,但计算资源消耗巨大。
- LoRA (Low-Rank Adaptation):一种高效的微调技术。它冻结预训练模型的权重,并在其中添加低秩分解的旁路矩阵。这大大减少了需要训练的参数量,显著降低了显存需求。
- QLoRA:在 LoRA 基础上引入量化技术,将模型权重压缩至 4-bit,使得在消费级显卡上微调大模型成为可能。
- P-Tuning / Prefix Tuning:通过优化连续提示向量(Prompt Embeddings)来引导模型生成,无需更新主模型参数。
三、常见大模型
闭源大模型
- GPT 系列 OpenAI 公司在 2018 年提出的 GPT(Generative Pre-Training)模型是典型的生成式预训练语言模型之一。 GPT 模型的基本原则是通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器。它能够成功的两个关键点:
- 训练能够准确预测下一个单词的仅解码器的 Transformer 语言模型。
- 扩展语言模型的大小。 目前最新的 GPT-4 在多模态理解、逻辑推理及代码生成方面展现了卓越能力。


