对于希望从其他编程领域转行至 AI 大模型开发的开发者,选择合适的工具至关重要。以下是从事大模型开发必须掌握的四个开源工具:
1. Hugging Face

Hugging Face 是目前最大的 AI 开源社区,提供了大量的预训练模型和模型库。许多开发者会将训练好的模型上传至此,供他人免费下载使用。下载后,可在此基础上进行微调或推理,无需从零开始训练大模型。此外,该平台上也提供丰富的数据集,解决了微调模型时数据准备费时费力的问题。因此,Hugging Face 常被称为'AI 领域的 GitHub'。
2. PyTorch

从 Hugging Face 下载模型后,下一步通常是微调,此时需要用到 PyTorch。PyTorch 是一个基于 Python 的开源机器学习库,已成为目前最流行的机器学习和深度学习框架之一。它提供了一套简洁且强大的 API,使得模型的构建和操作更加直观,只需几行代码即可构建自己的大模型。
3. DeepSpeed

完成模型下载与代码编写后,若要在服务器上进行大规模训练或微调,则需要 DeepSpeed。由于大模型训练通常无法仅在一台服务器上完成,DeepSpeed 的作用是将模型快速部署到多台服务器上进行并行化训练或推理。开发者需完善代码以添加对 DeepSpeed 的支持。
完成上述步骤后,即可在服务器上真正训练或微调大模型,最终得到训练后的模型文件,并进行推理测试,验证微调效果。
4. LangChain

大模型训练完成后,主要用途是进行推理。为了开发 AI 应用调用大模型能力(例如构建结合 RAG+LLM 的企业知识库、AI 聚合搜索引擎或领域智能体),需要使用 LangChain。LangChain 是一个用于构建基于 LLM 驱动应用程序的开源框架,内置多种 API,简化了对大模型的操作。若要基于大模型开发应用程序,LangChain 是必不可少的工具。
通过上述四款开源工具,可以从零构建大模型并在此基础上开发应用程序。这四款工具已成为当前 AI 领域开发从业人员的基础技术栈。需要注意的是,如果仅从事大模型应用程序开发而非模型训练,掌握 LangChain 即可;若涉及模型训练,则需掌握全套工具。

