主流大模型端侧部署工具指南 | 极客日志

PythonAI算法

主流大模型端侧部署工具指南

七种主流的大模型部署工具，涵盖 JittorLLM、BMInf、MLC-LLM、EnergonAI、llama.cpp、InferLLM 及 LaMini-LM。内容分析了端侧部署面临的挑战，包括数据规模、模型体积、算力需求及硬件适配问题。各工具在量化支持、硬件兼容性（CPU/GPU/NPU）、并行策略及运行环境上各有侧重，旨在帮助用户根据实际硬件条件选择合适的推理方案，实现本地化高效运行。文章详细列出了各工具的安装步骤、核心特性及适用场景，为开发者提供从通用大模型到行业大模型的完整部署参考。

松间照月发布于 2025/2/6更新于 2026/7/1936 浏览

主流大模型端侧部署工具指南

随着服务器端大模型部署的热度逐渐降低，端侧大模型部署的热潮正在逐步到来。虽然调用 OpenAI 等公司提供的 API 可以部署服务端的大模型，但想要在一个端侧新硬件上面部署语言大模型还是一件很有挑战的事情。本文推荐的这些大模型部署工具可以帮助开发者在本地或边缘设备上高效运行大模型。

1、大模型部署难点

挑战因素	主要原因	解决思路
数据规模大	1、标注成本高 2、质量参差不齐 3、行业数据不开源	1、指令微调 2、使用开源数据 3、行业内部大模型
模型体积大	1、模型参数大 2、小模型性能差 3、大模型才会有质变	1、模型低比特量化 2、模型蒸馏 3、模型并行调度
算力规模大	1、低算力耗时太长 2、产品周期限制 3、数据和模型决定	1、数据并行化 2、模型并行化 3、充分压榨算力
硬件设备多	1、硬件厂商多 2、没有编译器生态 3、用户需求不一致	1、适配多前端 2、适配多后端 3、推广深度学习编译器

2、大模型部署工具链

2.1、JittorLLM

链接: https://github.com/Jittor/JittorLLMs
简介: JittorLLM（计图）是一个大模型推理库，即使笔记本电脑没有显卡也可以用它来跑大模型。该工具由 Fitten 与清华大学联合开发，当前支持 ChatGLM、盘古、ChatRWKV、LLaMA 等语言大模型。该工具链支持多种硬件设备，除了支持主流的 NVIDIA、AMD、Ascend 硬件外，还支持天数智芯、中科海光和摩尔线程的硬件设备。主要通过动态 swap 机制和 Transformer 加速库来加速语言大模型部署。
安装:

git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1
cd JittorLLMs
pip install -r requirements.txt -i https://pypi.jittor.org/simple -I

特点: 速度快、成本低、可移植、可拓展。

2.2、BMInf

链接: https://github.com/OpenBMB/BMInf
简介: BMInf (Big Model Inference) 是一个用于大规模预训练语言模型推理阶段的低资源工具包。最低支持在 NVIDIA GTX 1060 单卡运行百亿大模型。在显存支持进行大模型推理的情况下（如 V100 或 A100 显卡），BMInf 的实现较现有 PyTorch 版本仍有较大性能提升。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install bminf
# 或者
python setup.py install

conda create -n mlc-chat
conda activate mlc-chat
conda install git git-lfs
conda install -c mlc-ai -c conda-forge mlc-chat-nightly
mkdir -p dist
git lfs install
git clone https://huggingface.co/mlc-ai/demo-vicuna-v1-7b-int3 dist/vicuna-v1-7b
git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git dist/lib
mlc_chat_cli

# 方案 1-源码安装
git clone [email protected]:hpcaitech/EnergonAI.git
pip install -r requirements.txt
pip install .

# 方案 2-Docker 安装
docker pull hpcaitech/energon-ai:latest

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release

# 方案 1-本地安装
git clone https://github.com/MegEngine/InferLLM.git
mkdir build
cd build
cmake ..
make

# 方案 2-Android 交叉编译
export NDK_ROOT=/path/to/ndk
./tools/android_build.sh

from transformers import pipeline
checkpoint = "{model_name}"
model = pipeline('text2text-generation', model=checkpoint)
input_prompt = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'
generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']
print("Response", generated_text)

主流大模型端侧部署工具指南

主流大模型端侧部署工具指南

1、大模型部署难点

2、大模型部署工具链

2.1、JittorLLM

2.2、BMInf

更多推荐文章

相关免费在线工具

2.3、MLC-LLM

2.4、EnergonAI

2.5、llama.cpp

2.6、InferLLM

2.7、LaMini-LM

3、总结与选型建议

更多推荐文章

相关免费在线工具

主流大模型端侧部署工具指南

主流大模型端侧部署工具指南

1、大模型部署难点

2、大模型部署工具链

2.1、JittorLLM

2.2、BMInf

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3、MLC-LLM

2.4、EnergonAI

2.5、llama.cpp

2.6、InferLLM

2.7、LaMini-LM

3、总结与选型建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具