在 LLM 领域,开源究竟意味着什么?
开源确实令人着迷。作为拥有悠久开源传统的学术界和工业界的一员,我们普遍都是开源软件的忠实拥护者。但坦白来讲,人们关于开源的众多讨论都显得极其模糊。开源的倡导者往往强调开源 LLM(Large Language Model)毋庸置疑的优势,却鲜有说明他们希望看到的具体内容。
这促使我们开始思考开源 LLM 的重要性,以及它们可能带来的益处。首先让我们锚定一个具体的讨论主题,对于 LLM 来说,究竟什么是开源?以下是几种定义:
- 公开可用的权重:LLaMA 2、Mistral 这样的模型属于这一类别。这些模型基于相当宽松的许可证发布构成模型的权重文件,以便用户能够获取这些模型并进行自定义部署。这是目前最主流的开源形式。
- 公开可用的数据集:据我们所知,目前还没有任何主流的开源 LLM 这样做,但公开模型数据将会产生重要影响。它将使社区了解模型的潜在偏见和缺陷,从而进行更有针对性的改进。
- 公开可用的训练代码及基础设施:迄今为止,大部分大模型构建者都将这一点严格保密。因为模型训练过程中包含大量的配置参数,再加上人类反馈强化学习(RLHF)的过程,因此公开这类信息有助于社区从基本原理层面理解模型是如何被构建的。
正如其他地方所讨论的那样,数据集的创建过程和嵌入在模型训练过程中的专业知识都被严格保密。主流的开源模型供应商很少(或不)发布有关用户数据集的信息,这让开源社区很失望。因此,到目前为止,我们主要见到的是公开可用的模型权重,但关于数据集、训练代码和基础设施的信息却少之又少。
真正开源的价值分析
假设开源倡导者赢得了这场战役,如果我们拥有真正开源的语言大模型,其权重、数据集以及代码和基础设施都可获取,那么我们将从中获得哪些重要价值?
1. 社区监督与安全对齐
了解模型的盲点和缺陷对于未来的模型改进和对齐研究至关重要。通过简单地与 GPT 这样的模型进行聊天交互或使用其 API,就已经能够发现很多盲点,研究人员可以通过托管模型来推动边界,用于测试策略。在洞察模型的偏见方面,模型底层数据集的可见性能否提供有价值的见解,这一点仍有待探讨。显然,模型构建者所做的编辑选择(如删除或包含数据)十分重要;然而,鉴于数据使用的大规模投资和潜在的法律风险,我们看到这些数据集完整公开的可能性非常小 (除非政府干预)。
开源使得第三方安全团队可以进行红队测试(Red Teaming),识别模型在特定场景下的失效模式,例如生成有害内容、泄露隐私或产生幻觉。这种透明度是建立信任的基础。
2. 重构模型与可复现性
在缺乏相关数据集和代码信息的情况下,这一点让开源社区感到非常沮丧。理想情况下,社区通过重新创建现有模型可以让研究人员尝试不同的模型参数和对齐方式。但现实情况是,这些模型的规模使得重新创建变得不大可能,甚至完全不可行。仅仅是训练所需的 GPU 成本就令人望而却步,而 RLHF 所需的基础设施和人力成本更是难以负担。
与普通的存储基础设施不同,用户实际上可以使用 Minio 来代替 AWS S3,但重新创建模型所需的硬件和时间成本使得这一有效的实验变得无法完成。社区所付出的努力不足以重新创建 GPT(甚至是 LLaMA)规模级别的模型——公共部门或大型研究机构可能会取得一定进展,但自下而上的实验仍然不可能实现。对齐研究很可能必须被视为现有模型的附加内容,而非从头开始的独立项目。
3. 自托管与定制部署
这是一个关注热点,尽管在某些高度敏感的安全场景下,企业可能需要定制的大模型。我们确信 OpenAI 和 Azure(以及相应的 AWS + Anthropic 和 GCP)会解决这一问题。由于模型质量存在巨大差距,用户如果可以安全部署私有模型(特别是具备适当的数据共享保护),那么他们选择开源 LLM 的意愿就会降低。
就在本周,我们与一家市值约 1000 亿美元的科技公司进行了交流,他们正与一家主要的云服务供应商洽谈共享私人信息的条款,用于云服务供应商的 LLM 部署。现实情况是,主流的模型供应商具备规模经济与高效部署的优势,其他的竞争对手难以超越。但在数据主权要求严格的行业(如金融、医疗),本地化部署开源模型是唯一合规的选择。
4. 专有化与微调生态
这在我们之前的文章中提到过,也是最具说服力的观点。开源 LLM 模型是开发专有化模型的良好基础。虽然 GPT 微调 API 功能强大,但它仅能通过 LoRA 进行微调(而不是完全权重更新),并且限制用户应用更高级的模型专有技术(如 RLHF 或 RLCF),这些技术在专有化模型日益成熟时很可能极具价值。这就是未来几年中开源模型最有可能蓬勃发展的领域。
开源模型在专有化方面已经十分强大。有人指出,Code-Llama 34B 已经是目前最好的代码模型,对此我们非常赞同!这是领域专用模型的一个绝佳的成功案例。不幸的是,由于训练模型所需的 GPU 和时间投资,微调可能仍然非常昂贵。幸运的是,我们已经从许多实际案例中得知(包括我们自己的工作中),微调模型不需要达到 GPT-4 等模型的规模和通用性。
经济性与技术挑战
这一思路引出一个显而易见的结论:开源模型不需要变得更好,只需要变得更小和更专用。此前的文章曾指出,开源 LLM 需要在成本和规模方面提升大约两个量级,才能赶上 GPT。如果它们能够跨越这一障碍,就可以提高企业对模型进行有效专用化的水准,并为开源软件的发展提供一条可行的路径。


