开始使用开源 LLM 前先了解这十个重要事项
自从 2022 年 11 月 30 日 OpenAI 推出了 ChatGPT 3.5,生成式模型的发展引起了广泛关注。这种趋势激发了国内外众多企业的兴趣,纷纷加入这个领域,推出了许多优秀的开源大型语言模型(LLM),有的是免费提供的,而有的则是收费的。
在我准备这篇文章之前,许多朋友向我询问关于选择开源 LLM 的建议,希望了解哪一款更加适合他们的项目。因此,我决定撰写一篇文章,介绍在选择开源大型语言模型前,需要考虑的十个关键因素。
关于对 Python 编程不太熟悉的朋友,实际上无需太大在意。现在市场上有许多平台和服务提供清晰易懂的可视化教程,帮助在不精通 Python 的情况下也能顺利使用这些工具。例如,一些国外的平台提供了用户友好的桌面应用程序,每月有一定的免费使用额度,我们可以通过这些平台轻松部署和自行托管开源 AI 模型,而无需担心数据泄露问题。
选择任何一款模型时,关键是要明确具体需求:了解需要这个工具帮助完成哪些任务,这是确保项目顺利进行的关键因素。
在本文中,我将内容分为两个部分进行分享。第一部分将聚焦于开源大型语言模型的重要性和基本概念。这里,我将解释为什么我们需要开源模型,如何获取这些模型,模型的基本知识,以及基础模型与预训练模型的区别。此外,我还会探讨这些模型在处理自然语言任务(NLP)中的应用。
第二部分,我将简要讨论实施大型语言模型所需的技术和策略。这包括必要的依赖库、权重量化方法(GGML 和 GPTQ)、Tokenizer、Transformers 和 pipelines,以及选择是本地安装还是使用远程服务的决策。这部分旨在提供一些实际操作的指南和策略,帮助您更有效地部署和使用大型语言模型。
1、为什么需要开源模型
当我们讨论使用 ChatGPT(国内也有百度的文心一言、星火等) 这样的大模型时,你可能会问为什么还需要在部署运行开源的大型语言模型(LLM)。这里有几个考虑的理由:
- 隐私保护:如果你非常注重隐私或你的项目需要对用户隐私进行严格保护,将数据发送给 OpenAI 或其他服务商可能引发隐私泄露的风险。在本地部署开源 LLM 可以让你完全掌控数据,确保数据的安全。
- 网络连接问题:在网络连接不稳定或无法访问某些服务的地区,例如无法连接国外的 OpenAI、Claude 或国内的百度文心一言、科大讯飞的星火大模型,开源 LLM 显得尤为重要。它确保你在任何地方都能利用 AI 技术,不受地理位置和网络条件的限制。
- 避免审查与限制:有时你可能会遇到服务使用上的限制或审查。开源 LLM 提供了更大的灵活性,允许你根据自己的需求调整模型,自由地开发和使用,不受外部控制的影响。
总结来说,开源 LLM 不仅提供基本的文本生成功能,还具备保护数据隐私、提高安全性、支持离线使用、可高度定制化等优势。这些特点让开源 LLM 成为一个在特定情况下非常有价值的选择,尤其是在处理敏感数据、面临网络挑战或需要特定自定义功能时。
2、在哪可以找到开源 LLM
在当前人工智能领域,开源大型语言模型(LLM)是一大亮点,目前主要依托于两个平台,Hugging Face 和 CivitAI。Hugging Face 承担着广泛的自然语言处理(NLP)任务,而 CivitAI 则专注于图像生成领域。
2.1 Hugging Face
Hugging Face 是一个汇聚算法专家、研究人员和机器学习(ML)工程师的协作平台,大家在这里共同推动开源项目的发展。我个人非常喜欢这个平台,经常在上面浏览和参与各种项目。目前,国内还没有形成这样的全方位合作社区。Hugging Face 不仅仅是开源代码的提供者,它还提供了一整套工具,帮助用户完整地走过构建、训练到部署机器学习模型的全过程。这个平台向我们证明,在 AI 领域,没有哪个科技巨头能够独自领航,合作与资源共享才是推动行业前进的动力。通过 Hugging Face,我们可以看到一个庞大的资源库正逐步构建,使得人工智能的好处能惠及每一个人及每个组织。
2.2 CivitAI
2022 年 11 月,CivitAI 作为一个专门针对图像生成领域的平台登场,它主要服务于那些热爱图像生成的爱好者和创作者。这个平台的出现满足了市场对于个性化模型微调的需求,为用户提供了一个可以自由分享创意和与其他创作者互动的环境。在国内,也有类似的平台,比如哩布哩布、XTimes AI 等。CivitAI 强调的是其平台的动态性和创新性,用户可以上传、分享并探索通过不同数据集训练出的自定义模型。这些模型不仅是实用的工具,更是激发创造力的关键,让创作者通过 AI 媒体软件,能够创作出富有个性和创新的作品。
2.3 Ollama
Ollama 是一个开源项目,它为本地运行大型语言模型(LLM)提供了一个功能强大而又操作简便的平台。也是我在日常工作常用的工具之一,这个工具很好地解决了部署 LLM 的复杂性与用户对易用性及可定制性 AI 体验的追求。
通过 Ollama,用户可以轻松下载、安装并管理多种大型语言模型,而无需具备深厚的技术背景或依赖于云平台,即可体验这些模型的强大功能。
- 模型库与管理:Ollama 拥有一个丰富多样、持续扩展的预训练 LLM 模型库,包括多功能通用模型和针对特定领域或任务的专用模型。这些模型的下载和管理过程非常简洁,用户无需处理复杂的模型格式或依赖问题。


