主流大模型端侧部署工具指南
随着服务器端大模型部署的热度逐渐降低,端侧大模型部署的热潮正在逐步到来。虽然调用 OpenAI 等公司提供的 API 可以部署服务端的大模型,但想要在一个端侧新硬件上面部署语言大模型还是一件很有挑战的事情。本文推荐的这些大模型部署工具可以帮助开发者在本地或边缘设备上高效运行大模型。
1、大模型部署难点
| 挑战因素 | 主要原因 | 解决思路 |
|---|---|---|
| 数据规模大 | 1、标注成本高 2、质量参差不齐 3、行业数据不开源 | 1、指令微调 2、使用开源数据 3、行业内部大模型 |
| 模型体积大 | 1、模型参数大 2、小模型性能差 3、大模型才会有质变 | 1、模型低比特量化 2、模型蒸馏 3、模型并行调度 |
| 算力规模大 | 1、低算力耗时太长 2、产品周期限制 3、数据和模型决定 | 1、数据并行化 2、模型并行化 3、充分压榨算力 |
| 硬件设备多 | 1、硬件厂商多 2、没有编译器生态 3、用户需求不一致 | 1、适配多前端 2、适配多后端 3、推广深度学习编译器 |
2、大模型部署工具链
2.1、JittorLLM
- 链接: https://github.com/Jittor/JittorLLMs
- 简介: JittorLLM(计图)是一个大模型推理库,即使笔记本电脑没有显卡也可以用它来跑大模型。该工具由 Fitten 与清华大学联合开发,当前支持 ChatGLM、盘古、ChatRWKV、LLaMA 等语言大模型。该工具链支持多种硬件设备,除了支持主流的 NVIDIA、AMD、Ascend 硬件外,还支持天数智芯、中科海光和摩尔线程的硬件设备。主要通过动态 swap 机制和 Transformer 加速库来加速语言大模型部署。
- 安装:
git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1
cd JittorLLMs
pip install -r requirements.txt -i https://pypi.jittor.org/simple -I
- 特点: 速度快、成本低、可移植、可拓展。
2.2、BMInf
- 链接: https://github.com/OpenBMB/BMInf
- 简介: BMInf (Big Model Inference) 是一个用于大规模预训练语言模型推理阶段的低资源工具包。最低支持在 NVIDIA GTX 1060 单卡运行百亿大模型。在显存支持进行大模型推理的情况下(如 V100 或 A100 显卡),BMInf 的实现较现有 PyTorch 版本仍有较大性能提升。


