Text Generation Inference (TGI)
Text Generation Inference (TGI) 是由 Hugging Face 发布的文本生成推理工具包,专为部署和服务大型语言模型 (LLM) 设计。它实现了多项关键功能以提升推理性能和可扩展性。
核心功能
- 分布式跟踪:集成 Prometheus 指标。
- 张量并行:支持在多个 GPU 上实现更快的推理速度。
- 令牌流:使用服务器发送事件 (SSE) 进行流式输出。
- 连续批处理:动态管理请求批次以提高吞吐量。
- 优化内核:在最流行的架构上使用 Flash Attention 和 Paged Attention 进行推理优化。
- 量化支持:包括 bitsandbytes、GPT-Q、EETQ、AWQ 等。
- 权重加载:支持 Safetensors 格式。
- Logits 处理器:支持温度缩放、top-p、top-k、重复惩罚等。
- 停止序列与对数概率:控制生成结束条件并获取概率信息。
- 自定义提示与微调:支持指导模型输出及利用微调模型提升特定任务性能。
支持的硬件
兼容 NVIDIA、AMD、Intel GPU、Inferentia 及 Gaudi 等硬件设备。
本地运行大模型
环境准备
-
安装 Rust
sudo apt-get install libssl-dev gcc -y curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh source $HOME/.cargo/env -
安装 Protoc
PROTOC_ZIP=protoc-21.12-linux-x86_64.zip curl -OL https://github.com/protocolbuffers/protobuf/releases/download/v21.12/$PROTOC_ZIP sudo unzip -o $PROTOC_ZIP -d /usr/local bin/protoc sudo unzip -o $PROTOC_ZIP -d /usr/local 'include/*' rm -f $PROTOC_ZIP -
编译 TGI
git clone https://github.com/huggingface/text-generation-inference.git cd text-generation-inference conda activate llm-plus BUILD_EXTENSIONS=True make install -j


