美妆企业自建专属大模型：开源模型与训练方法汇总

大模型正在重塑美妆产业，但美妆企业想要真正拥抱大模型，实现大模型的自建，仍然面临很多现实问题：

要怎样才能拥有美妆企业的专属垂直领域大模型？
如何高效率、低成本地处理数据？
模型数据如何动态更新？
私有数据如何安全地接入大模型？

服务数十家美妆企业，成功交付私有化大模型后，我们发现美妆企业成功拥抱专属大模型的关键在于：

依托匹配的开源模型；
执行合适的训练方法。

一、开源大模型基础

众所周知，大模型的训练成本极高，在海量算力的成本压力下，OpenAI 和谷歌都选择了闭源来保证自家大模型的优势地位。但是从计算机科学与人工智能的发展历程来看，开源始终对软件技术乃至 IT 技术发展有着巨大的推动作用。

大模型时代，Meta 率先走上了开源的道路，LLaMA 基座开源之后，也因其出色的性能，迅速吸引了大量开发者。Meta 更是发布了免费可商用版本 Llama 2。在美妆垂直专用领域，开发专属大模型应用时不应该从零开始，而是选择一个经过预训练的大模型作为基础，并进行指令微调以满足特定需求。美妆企业拥抱专属大模型可建立在开源大模型的基础上。

1. Meta Llama 系列

Llama / Llama 2: 经典的开源基座，社区生态丰富。HF Doc 提供详细文档，Github 上有官方推理代码。
Llama 3: 目前最强大的开源模型之一，引入了更高效的注意力机制和更大的上下文窗口，适合处理复杂的用户咨询场景。
适用性: 适合需要高通用能力的美妆客服、产品推荐等场景。

2. 智谱 AI (Zhipu AI)

开放平台: 提供丰富的 API 接口和模型服务。
SwissArmyTransformer: 智谱 AI 所有大模型公用的 backbone 代码库，是一个灵活且强大的库，用于开发自己的 Transformer 变体。对于希望深度定制架构的企业，这是一个重要的参考资源。

3. Microsoft 相关架构

TorchScale: GitHub - microsoft/torchscale: Foundation Architecture for (M)LLMs，包含 DeepNorm 的代码实现。DeepNorm 是一种改进的归一化方法，有助于稳定深层网络的训练，适合构建大规模模型的基础架构。

二、大模型训练策略

大模型在所有行业各种任务上展现了作为通用模型的潜力。但由于模型体积庞大和推理延迟高，LLMs 存在效率问题，这使得它们难以在实际应用中部署。因此，在美妆企业应用场景中，仍然更青睐于在任务特定数据上训练的小型模型，因为它们具有更少的参数，易于部署，并在特定下游任务中表现良好。

然而，为了适应美妆企业特定任务，训练一个小型模型可能需要大量的人工标注数据，在许多下游任务中这种数据并不可用且注释成本高昂。这种数据效率问题使得微调小型模型变得具有挑战性。因此，需要通过大模型结合小模型联动训练，减少在特定任务上微调小型模型所需的数据量。

核心训练方法详解

1. 知识蒸馏 (Knowledge Distillation)

利用大模型（教师模型）的输出作为软标签，指导小模型（学生模型）的学习。在美妆场景中，可以用通用的美妆大模型生成高质量的问答对，然后让垂直小模型学习这些模式，从而大幅降低人工标注成本。

2. 数据增强 (Data Augmentation)

通过合成数据或变换现有数据来扩充训练集。例如，利用大模型生成不同风格的产品描述、用户评价或咨询对话，增加数据的多样性，防止过拟合。

3. 模块替换 (Module Replacement)

针对特定任务替换模型中的特定层。例如，在美妆色彩分析任务中，可以替换视觉编码器部分，保留语言理解部分，实现多模态能力的快速适配。

美妆企业自建专属大模型：开源模型与训练方法汇总