美妆企业自建专属大模型:开源模型与训练方法汇总
大模型正在重塑美妆产业,但美妆企业想要真正拥抱大模型,实现大模型的自建,仍然面临很多现实问题:
- 要怎样才能拥有美妆企业的专属垂直领域大模型?
- 如何高效率、低成本地处理数据?
- 模型数据如何动态更新?
- 私有数据如何安全地接入大模型?
服务数十家美妆企业,成功交付私有化大模型后,我们发现美妆企业成功拥抱专属大模型的关键在于:
- 依托匹配的开源模型;
- 执行合适的训练方法。
一、开源大模型基础
众所周知,大模型的训练成本极高,在海量算力的成本压力下,OpenAI 和谷歌都选择了闭源来保证自家大模型的优势地位。但是从计算机科学与人工智能的发展历程来看,开源始终对软件技术乃至 IT 技术发展有着巨大的推动作用。
大模型时代,Meta 率先走上了开源的道路,LLaMA 基座开源之后,也因其出色的性能,迅速吸引了大量开发者。Meta 更是发布了免费可商用版本 Llama 2。在美妆垂直专用领域,开发专属大模型应用时不应该从零开始,而是选择一个经过预训练的大模型作为基础,并进行指令微调以满足特定需求。美妆企业拥抱专属大模型可建立在开源大模型的基础上。
1. Meta Llama 系列
- Llama / Llama 2: 经典的开源基座,社区生态丰富。HF Doc 提供详细文档,Github 上有官方推理代码。
- Llama 3: 目前最强大的开源模型之一,引入了更高效的注意力机制和更大的上下文窗口,适合处理复杂的用户咨询场景。
- 适用性: 适合需要高通用能力的美妆客服、产品推荐等场景。
2. 智谱 AI (Zhipu AI)
- 开放平台: 提供丰富的 API 接口和模型服务。
- SwissArmyTransformer: 智谱 AI 所有大模型公用的 backbone 代码库,是一个灵活且强大的库,用于开发自己的 Transformer 变体。对于希望深度定制架构的企业,这是一个重要的参考资源。
3. Microsoft 相关架构
- TorchScale: GitHub - microsoft/torchscale: Foundation Architecture for (M)LLMs,包含 DeepNorm 的代码实现。DeepNorm 是一种改进的归一化方法,有助于稳定深层网络的训练,适合构建大规模模型的基础架构。
二、大模型训练策略
大模型在所有行业各种任务上展现了作为通用模型的潜力。但由于模型体积庞大和推理延迟高,LLMs 存在效率问题,这使得它们难以在实际应用中部署。因此,在美妆企业应用场景中,仍然更青睐于在任务特定数据上训练的小型模型,因为它们具有更少的参数,易于部署,并在特定下游任务中表现良好。
然而,为了适应美妆企业特定任务,训练一个小型模型可能需要大量的人工标注数据,在许多下游任务中这种数据并不可用且注释成本高昂。这种数据效率问题使得微调小型模型变得具有挑战性。因此,需要通过大模型结合小模型联动训练,减少在特定任务上微调小型模型所需的数据量。
核心训练方法详解
1. 知识蒸馏 (Knowledge Distillation)
利用大模型(教师模型)的输出作为软标签,指导小模型(学生模型)的学习。在美妆场景中,可以用通用的美妆大模型生成高质量的问答对,然后让垂直小模型学习这些模式,从而大幅降低人工标注成本。
2. 数据增强 (Data Augmentation)
通过合成数据或变换现有数据来扩充训练集。例如,利用大模型生成不同风格的产品描述、用户评价或咨询对话,增加数据的多样性,防止过拟合。
3. 模块替换 (Module Replacement)
针对特定任务替换模型中的特定层。例如,在美妆色彩分析任务中,可以替换视觉编码器部分,保留语言理解部分,实现多模态能力的快速适配。


