什么是流式输出,后端怎么生成,前端怎么渲染
流式输出(Streaming Output) 就像是在看视频直播,内容是一边产生一边传输给你的,而不是像下载电影那样,必须等整个文件下完才能开始看。
在 AI 领域(比如 ChatGPT),流式输出表现为文字一个接一个地'蹦'出来,而不是转半天圈圈后突然甩出一大段话。
什么是流式输出,有什么特点
1. 它是怎么实现的?
流式输出的核心技术通常是 SSE (Server-Sent Events,服务器发送事件)。
在传统的 HTTP 请求中,模式是'一问一答':客户端发请求,服务器处理完全部逻辑,打成一个大包发回客户端。而在流式输出中,过程如下:
- 建立持久连接:客户端发送一个请求,并在 HTTP 头部声明
Accept: text/event-stream。 - 分块传输:服务器每生成一个字(或一个 Token),就立即将其封装成一个小数据块发送出去。
- 保持连接:直到内容生成完毕,服务器才会发送一个特殊的结束标志(如
[DONE]),随后关闭连接。
2. 流式输出的特点
| 特点 | 说明 |
|---|---|
| 低首字节延迟 (TTFB) | 用户能瞬间看到反馈,大大缓解了等待焦虑。 |
| 实时性 | 适合长文本生成。如果是普通模式,生成 1000 字可能需要 20 秒,流式模式下第 1 秒就开始显示。 |
| 单向通讯 | 不同于 WebSocket 的双向奔跑,SSE 主要是服务器向客户端'单向投喂'数据。 |
| 资源占用 | 因为要长时间维持一个 HTTP 连接,对服务器的并发处理能力有一定要求。 |
3. 为什么 AI 必须用它?
大语言模型(LLM)的推理过程是自回归的。简单来说,它每生成一个词,都要基于前面所有的词重新算一遍概率。
P(w_{t+1} | w_1, w_2, ..., w_t)
这个过程本身就很耗时。如果等 2000 个 Token 全部算完再给用户,用户可能以为网页卡死了。流式输出完美契合了模型'一个一个词往外蹦'的运行逻辑。
后端怎么实现
在后端实现流式输出,本质上是打破'处理完全部逻辑再返回'的传统模式,改为利用 HTTP 分块传输(Chunked Transfer Encoding) 持续向客户端推送数据。
最常见的方法是使用 SSE (Server-Sent Events)。下面我以 Python (FastAPI) 和 Node.js (Express) 为例展示核心逻辑。
1. Python 实现 (以 FastAPI 为例)
FastAPI 内置了 StreamingResponse,非常适合配合大模型的生成器(Generator)使用。
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
app = FastAPI()
@app.get()
():
():
i ():
StreamingResponse(generate(), media_type=)

