LLM 推理加速框架 Text Generation Inference (TGI) 使用指南 | 极客日志

RustAI算法

LLM 推理加速框架 Text Generation Inference (TGI) 使用指南

Text Generation Inference (TGI) 是 Hugging Face 推出的用于部署和服务大型语言模型的开源工具。它支持张量并行、连续批处理、多种量化方案及 Flash Attention 优化。 TGI 的核心功能、本地编译安装步骤（基于 Rust）、Docker 部署方式、模型运行参数配置以及性能基准测试方法。通过 TGI，开发者可以实现低延迟的 LLM 推理服务，并根据业务需求调整批处理大小和硬件配置以优化 Token 生成效率。

zhang发布于 2025/2/7更新于 2026/6/321 浏览

Text Generation Inference (TGI)

Text Generation Inference (TGI) 是由 Hugging Face 发布的文本生成推理工具包，专为部署和服务大型语言模型 (LLM) 设计。它实现了多项关键功能以提升推理性能和可扩展性。

核心功能

分布式跟踪：集成 Prometheus 指标。
张量并行：支持在多个 GPU 上实现更快的推理速度。
令牌流：使用服务器发送事件 (SSE) 进行流式输出。
连续批处理：动态管理请求批次以提高吞吐量。
优化内核：在最流行的架构上使用 Flash Attention 和 Paged Attention 进行推理优化。
量化支持：包括 bitsandbytes、GPT-Q、EETQ、AWQ 等。
权重加载：支持 Safetensors 格式。
Logits 处理器：支持温度缩放、top-p、top-k、重复惩罚等。
停止序列与对数概率：控制生成结束条件并获取概率信息。
自定义提示与微调：支持指导模型输出及利用微调模型提升特定任务性能。

支持的硬件

兼容 NVIDIA、AMD、Intel GPU、Inferentia 及 Gaudi 等硬件设备。

本地运行大模型

环境准备

安装 Rust

sudo apt-get install libssl-dev gcc -y
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env

安装 Protoc

PROTOC_ZIP=protoc-21.12-linux-x86_64.zip
curl -OL https://github.com/protocolbuffers/protobuf/releases/download/v21.12/$PROTOC_ZIP
sudo unzip -o $PROTOC_ZIP -d /usr/local bin/protoc
sudo unzip -o $PROTOC_ZIP -d /usr/local 'include/*'
rm -f $PROTOC_ZIP

编译 TGI

git clone https://github.com/huggingface/text-generation-inference.git
cd text-generation-inference
conda activate llm-plus
BUILD_EXTENSIONS=True make install -j

启动模型

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

text-generation-launcher --model-id /path/to/model --trust-remote-code --port 4000

curl 127.0.0.1:4000/generate \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'

docker run --gpus all -p 4000:80 huggingface/text-generation-inference:latest \
  --model-id <MODEL_ID> --port 80

安装基准工具
```
make install-benchmark
```

启动服务与测试

text-generation-launcher --model-id <MODEL_PATH> --trust-remote-code --port 4000
text-generation-benchmark --tokenizer-name <TOKENIZER_PATH> \
  --batch-size 1 --batch-size 2 --batch-size 4 --batch-size 8 \
  --batch-size 16 --batch-size 32 --batch-size 64

结果分析
- Batch Size: 通过 Tab 键切换不同批大小，观察性能变化。
- 延迟指标: p50、p90、p99 表示大多数情况下的延迟分布。
- Token 树: 监控 token 数量和延迟关系。若延迟随 Token 增加显著上升，需寻找拐点以确定最佳配置。
- 硬件调整: 若 Token 数量不足导致延迟高，可增加显卡；若 Token 过多，可考虑降低硬件配置以节省成本。

LLM 推理加速框架 Text Generation Inference (TGI) 使用指南

Text Generation Inference (TGI)

核心功能

支持的硬件

本地运行大模型

环境准备

启动模型

更多推荐文章

相关免费在线工具

常用参数说明

调用示例

Docker 部署

TGI Benchmark

运行基准测试

注意事项

常见问题

更多推荐文章

相关免费在线工具

LLM 推理加速框架 Text Generation Inference (TGI) 使用指南

Text Generation Inference (TGI)

核心功能

支持的硬件

本地运行大模型

环境准备

启动模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

常用参数说明

调用示例

Docker 部署

TGI Benchmark

运行基准测试

注意事项

常见问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具