大模型算法二次开发：核心思路与流程详解

综述由AI生成大模型二次开发主要包含领域知识注入、知识召回激发及偏好对齐三个阶段。核心方法涵盖增量预训练（CPT）、有监督微调（SFT）、人类反馈强化学习（RLHF）及直接偏好优化（DPO）。在技术实现上，可分为基于 Prompt、基于表征及基于模型混合三类自适应预训练方法。文章详细解析了各阶段的功能、优缺点及实施细节，强调了数据质量、算力规划及评估体系在工程落地中的重要性，为垂直领域大模型的开发提供了系统化的思路与参考。

Eee_123发布于 2025/2/7更新于 2026/6/121 浏览

前言

随着众多大模型相继问世，大模型二次开发、大模型微调成为一项热门技术。本文总结了大模型二次开发的基本方法与思路，涵盖从领域知识注入到偏好对齐的全流程。

开发方法分类

领域知识注入：Continue PreTraining（增量预训练）。一般垂直大模型是基于通用大模型进行二次开发，需要用领域内的语料进行继续预训练。
知识召回（激发）：SFT（Supervised Finetuning，有监督微调）。通过 SFT 可以激发大模型理解领域内的各种问题并进行回答的能力。
基础偏好对齐：奖励模型（RM）、强化学习（RL），可以让大模型的回答对齐人们的偏好，比如行文的风格。
高阶偏好对齐：RLHF（人类反馈强化学习训练）、DPO（直接偏好优化）。

开发阶段分类

模型通常分为三个主要阶段：

第一阶段：Continue PreTraining（增量预训练）。在海量领域文档数据上二次预训练 GPT 模型，以注入领域知识。
第二阶段：SFT（Supervised Fine-tuning，有监督微调）。构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图。
第三阶段：RLHF 和 DPO 二选一。用于最终的对齐和优化。

各个阶段功能介绍

Continue PreTraining（增量预训练）

在大模型整个流程中，增量预训练属于后期预训练（Post-pretraining）的范畴。Post-pretraining 是一种在模型的初始预训练和最终微调之间进行的训练方法，通常用于进一步适应模型以处理特定类型的数据或任务。

后期预训练（Post-pretraining） Post-pretraining 是在通用预训练模型的基础上，对模型进行额外训练的过程，通常是为了使模型更好地适应特定的领域或任务。这个过程使用的数据集通常比预训练阶段的数据集更专注于某个领域或任务，但比微调阶段使用的数据集更大、更广泛。训练方法可以是监督学习，也可以是自监督学习，具体取决于可用数据的类型和训练目标。 Post-pretraining 的目标是在不过度专化到某个特定任务的同时，提高模型对特定领域的理解和表现。
训练过程 在 Post-pretraining 阶段，模型通常会在一个包含大量领域特定数据的数据集上进行训练。这个阶段的训练可以包括多种任务，如语言建模、文本分类、实体识别等，这些任务都是为了提升模型在特定领域的表现。训练过程中，模型的参数会根据领域特定数据集进行调整，以便更好地捕捉和理解领域内的语言模式和知识。
优势与目标 Post-pretraining 允许模型在保持通用性的同时，增强对特定领域的理解，这有助于模型在后续的微调阶段更快速地适应特定任务。与 SFT 相比，Post-pretraining在微调之前提供了一个中间步骤，有助于模型更平滑地过渡到特定任务上。与 RLHF 相比，Post-pretraining 不依赖于复杂的奖励机制或人类反馈，而是通过大量的领域特定数据来提升模型性能。总结来说，Post-pretraining 是一个介于预训练和微调之间的训练阶段，它使用大量的领域特定数据来进一步调整模型，使其更好地理解特定领域的语言和任务。这个阶段不需要复杂的奖励机制，而是通过传统的监督或自监督学习方法来实现模型性能的提升。

微调 (Fine-tuning)

在这个阶段，预训练模型（可能经过了 Post-pretraining）被进一步训练，以优化它在一个特定任务上的表现。微调通常在一个相对较小的、特定任务的数据集上进行，这个数据集包含了明确的标签，模型通过监督学习来进行优化。微调的目的是调整模型的参数，使其能够在特定任务上做出准确的预测。

SFT 监督微调

SFT (Supervised Fine-Tuning) 是微调的一种形式，强调在有监督的环境下进行。在 SFT 阶段，我们使用特定领域的数据或私有化数据对预训练模型进行改良。这一阶段需要指令微调数据，数据集通常由输入（用户问题）和输出（标准答案）两个字段构成。标准答案通常由专家标注获得。

SFT 是一种简单的微调方法，它使用带有正确答案的数据集来继续训练一个预训练的模型。
这种方法依赖于大量的标注数据，即每个输入都有一个预先定义的正确输出。

大模型算法二次开发：核心思路与流程详解

前言

开发方法分类

开发阶段分类

各个阶段功能介绍

Continue PreTraining（增量预训练）

微调 (Fine-tuning)

SFT 监督微调

更多推荐文章

相关免费在线工具

RLHF 人类反馈强化学习

模型对齐

RLHF 与模型对齐区别

技术创新与发展

RLHF

DPO

增量预训练（Continue Pretraining）进阶

1、Prompt-based 方法

2、Representation-based 方法

3、Model Mixture-based 方法

实施建议与最佳实践

结语

更多推荐文章

相关免费在线工具

大模型算法二次开发：核心思路与流程详解

前言

开发方法分类

开发阶段分类

各个阶段功能介绍

Continue PreTraining（增量预训练）

微调 (Fine-tuning)

SFT 监督微调

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

RLHF 人类反馈强化学习

模型对齐

RLHF 与模型对齐区别

技术创新与发展

RLHF

DPO

增量预训练（Continue Pretraining）进阶

1、Prompt-based 方法

2、Representation-based 方法

3、Model Mixture-based 方法

实施建议与最佳实践

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具