大模型开发还是应用:从业者选择指南
近日,OpenAI 预计在秋季推出代号为'草莓'的新 AI。从专注于数学问题到处理主观营销策略,"草莓"模型展现出惊人的多样性。
大模型的更新让人眼花缭乱,但整个大模型的生态圈,其实是分工明确的。大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型。
1. 越来越昂贵的 Pre-Training
大模型预训练的代价是多方面的,涉及显卡(GPU)、数据、存储等多个角度。以下是对这些方面的详细阐述:
显卡(GPU)成本
训练大型模型需要大量的 GPU 资源。例如,训练一个千亿参数规模的大模型可能需要数千个英伟达 A100 GPU,每个 GPU 的成本约为 10,000 美元。如果按照这样的规模计算,仅 GPU 成本就可达数亿美元。
数据成本
大模型训练需要海量的数据。数据的采集、清洗、标注和存储都需要成本。例如,预训练数据集可能需要经过大量的前置步骤,包括数据抓取、清洗、转换等,这些步骤涉及大量的实验,处理的数据量通常是正式训练数据集的 100 倍以上。
存储成本
存储系统性能与成本之间的平衡是一个重要考虑因素。高性能文件系统如 GPFS、Lustre 等通常依赖全闪存(NVMe)和高性能网络,成本较高。对象存储虽然成本较低,但可能需要额外的人力和时间去处理数据同步、迁移和一致性管理等任务。
数据中心成本
数据中心的运营成本包括电力、冷却和维护等。这些成本随着 GPU 数量和数据中心规模的增加而增加。
人力成本
训练大型模型需要一支专业的工程师和科学家团队,包括数据工程师、AI 研究员、软件工程师等。这些人才的薪资和福利是另一个重要的成本因素。
2. 你真的有机会预训练大模型吗?
绝大部分的大模型从业者都不会从事基座大模型的开发。
预训练的很多技术,你可能在技术博客里看到,可能会在面试的时候被问到,但也许永远也不会在实际工作中用到。因为预训练太昂贵了,而且很多公司也没有这个需求。
大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型。
从难易程度上来分,大模型的应用基本包含以下五个方面:
| 策略 | 难度 | 数据要求 |
|---|---|---|
| Prompt Engineering | 低 | 无 |
| Self-Reflection | 低 | 无 |
| RAG | 中 | 少量 |
| Agent | 中 | 少量 |
| Fine-tuning | 高 | 中等 |
3. Prompt Engineering
Prompt Engineering 是优化 prompts 以获得有效输出的艺术和科学。它涉及设计、编写和修改 prompts,以引导 AI 模型生成高质量、相关且有用的响应。
常见的技巧包括零样本提示(Zero-shot)、少样本提示(Few-shot)以及思维链(Chain-of-Thought)。通过精心设计的指令,开发者可以在不修改模型权重的情况下显著提升模型表现。例如,在复杂推理任务中,明确要求模型'一步步思考'往往能获得更准确的结果。
4. Self-Reflection
在实际工作中,我发现很多伙伴并没有意识到 Self-Reflection 的重要性。其实 Self-Reflection 是一个简单但非常有用的策略。


