垂直行业大模型的几种训练策略
在通用大模型能力日益强大的背景下,如何将其应用于特定垂直领域(如法律、医疗、金融等)成为企业关注的重点。目前垂直行业大模型的构建主要有以下几种主流训练策略:
本文详细分析了垂直行业大模型的几种主要训练策略,包括从头重新训练、二次预训练、基础大模型微调、通用大模型结合向量知识库以及 In-Context Learning。文章深入探讨了各策略的优缺点及适用场景,特别强调了数据配比的重要性,指出二次预训练中领域数据比例应控制在 15% 以下以避免通用能力退化。此外,还分析了大模型训练面临的硬件资源成本、模型训练技巧(如精度选择、并行方案)、团队配置结构以及常见的过拟合和评估风险。对于资源有限的团队,建议采用微调加知识库的方案以实现快速落地。

在通用大模型能力日益强大的背景下,如何将其应用于特定垂直领域(如法律、医疗、金融等)成为企业关注的重点。目前垂直行业大模型的构建主要有以下几种主流训练策略:
使用通用数据和领域数据混合,从头开始训练一个大模型。最典型的代表是 BloombergGPT。
在一个通用模型的基础上进行继续预训练(Continual Pre-training)。例如 LawGPT 就是采用了此方案。
在一个通用模型的基础上做指令微调(SFT)。这是目前开源社区最普遍的做法,如 Huatuo、ChatLaw 等工作。
针对通用大模型见过的领域知识较少的问题,利用向量数据库等方式,根据问题在领域知识库中找到相关内容,再利用通用大模型强大的总结(Summarization)和问答(QA)能力生成回复。
直接用 In-Context Learning 的方法,通过构造和领域相关的 Prompt,由通用大模型直接生成回复。
选择【重新训练大模型】意味着要面临异常苛刻的资源需求,主要包括数据要求和硬件资源要求。
以 BloombergGPT 为例,有观点认为其模型能力较差,比通用大模型差很多,其中最大的错误可能是数据配比。他们可能使用了 1:1 的比例混合通用数据和金融数据。首先,不知道他们对金融数据是如何清洗和保证数据质量的,个人觉得 500B 的金融数据质量可能低于 500B 的通用数据的质量,这对模型最后能力的局限有比较大的影响。通用数据和金融数据必须是用同样的标准做了高质量清洗和质量控制的。其次,1:1 的数据比例大概率是一个很差的选择。对于复现 ChatGPT 3.5 来说,数据配比应该是 OpenAI 最核心的秘密和领先的地方。和很多 OpenAI 的人员交流下来,他们在这块做了大量的实验并积累了大量的经验。
对 Continue Pretraining 来说,如果要让模型不丢失通用能力(如 Summarization, QA 等),「领域数据的比例要在 15% 以下」。一旦超过这个阈值,模型的通用能力会下降很明显。和不少同行交流下来,感觉大家的范围都在 10%-15% 左右。而且,该阈值和预训练模型的大小、预训练时原始数据的比例等条件都息息相关,需要在实践中反复修正(这个时候就能看出 Scaling Law 的重要性了)。这个经验也告诉我们不要轻易用 Continue Pretraining 或者 From Scratch Pretraining 的方法做行业大模型,每 100B 的领域数据,需要配上 700B-1000B 的通用数据,这比直接训练通用大模型要困难多了。
对 SFT 来说,这个比例就可以提高不少,大概领域数据和通用数据比例在 1:1 的时候还是有不错的效果的。当然,如果 SFT 的数据量少,混不混数据的差别就不太大了。所以说,做 Pretraining 不仅耗资源,需要大量的卡和数据,还需要大量的实验去调数据配比。每次有人和我说通过 Pretraining 的方法做了行业大模型的时候,我通常是不信的。做 SFT 不是香多了吗?
大模型的训练成本极高。以 GPT-3 为例,GPT-3 需要 400-500 个 A100/年(用 400-500 张 A100 训 1 年)。假设不买显卡,租公有云,现在 8 张 A100 包年的价格大概一年 80 万,一次性走量打五折 40 万,训练 GPT-3 的成本大概是 2500 万人民币。
上面的讨论是按照 GPU 跑满 100% 的使用率来计算,实际上 GPU 永远是有被浪费的时候,浪费的原因可能是:
在实际训练中,以下是一些关键的工程经验和技巧:
大模型训练团队的人员配置与传统大项目团队有所不同。传统的大项目需要堆一大批人;而大模型的特点是极少量的 Idea 要指挥的动极大的资源,因此团队必然精简,不可能使用人海战术。根据 BigScience 的经验,可以总结出几种类型的团队人员配置:
在大模型时代,企业对人才的需求变了,AIGC 相关岗位人才难求,薪资持续走高。掌握大模型技术不仅能带来薪资上浮,还能拥有更多可能性,如成为全栈大模型工程师,具备模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用。
综合以上分析,对于没有强大技术团队的企业,建议优先采用【基础大模型微调】+【向量知识库】的组合方案。这种方案平衡了成本与效果,能够快速落地。
如果在预算充足且追求极致效果的情况下,可以考虑二次预训练,但务必严格控制领域数据比例(<15%),并做好通用能力评测。对于从 0 开始的重新训练,除非有特殊的领域数据垄断优势且资金充裕,否则不建议轻易尝试。
最后,无论选择哪种策略,数据质量永远是决定模型上限的关键因素。建立严格的数据清洗、去重、质量控制流程,比单纯堆砌算力更为重要。同时,建立完善的自动化评估体系,确保每一轮迭代都能准确反映模型能力的变化,避免陷入无效训练的泥潭。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online