Qwen3-1.7B 流式响应实战验证与前端集成教程 | 极客日志

PythonAI大前端

Qwen3-1.7B 流式响应实战验证与前端集成教程

验证了 Qwen3-1.7B 模型的流式响应能力，并通过 LangChain 进行接口测试。随后使用 FastAPI 构建后端服务，将模型输出转换为 SSE 格式。最后通过原生 HTML+JavaScript 实现前端流式接收与打字机效果展示，完成了从环境搭建到前后端联调的全流程。

剑仙发布于 2026/4/6更新于 2026/7/860 浏览

Qwen3-1.7B 支持流式响应？实战验证与前端集成教程

最近在折腾大模型应用开发，特别是想给前端加个实时聊天的效果，就一直在找支持流式输出的轻量级模型。Qwen3 系列开源后，我第一时间注意到了 1.7B 这个版本——参数小，部署快，但官方文档里关于流式响应的说明不太详细。

所以，我决定自己动手验证一下：Qwen3-1.7B 到底支不支持流式响应？如果支持，怎么在前端项目里用起来？这篇文章就是我的实战记录，从环境搭建、接口测试到前端集成，一步步带你走通整个流程。

1. 环境准备与快速启动

要在本地或者云端快速体验 Qwen3-1.7B，最省事的方法就是直接用现成的 Docker 镜像。这里我以通用的容器为例，带你快速启动一个可用的环境。

1.1 启动 Jupyter Notebook 环境

找到 Qwen3-1.7B 的镜像并启动。平台通常会提供一个预装好所有依赖的容器。
容器启动后，直接打开提供的 Jupyter Notebook 链接。你会看到一个熟悉的网页界面，里面已经配置好了 Python 环境和必要的库。

这样，我们就不用操心安装 PyTorch、Transformers 这些麻烦的依赖了，直接就能开始写代码。

1.2 验证基础调用

在 Jupyter 里新建一个笔记本，我们先跑个最简单的代码，看看模型能不能正常工作。这里我用 langchain 来调用，因为它封装得比较好用。

from langchain_openai import ChatOpenAI
import os

# 初始化聊天模型，注意 base_url 要换成你的实际服务地址
chat_model = ChatOpenAI(
    model="Qwen3-1.7B",
    temperature=0.5,  # 控制回答的随机性，0.5 比较适中
    base_url="https://你的服务地址/v1",  # 替换成你的 Jupyter 服务地址，端口通常是 8000
    api_key="EMPTY",  # 因为本地服务，一般不需要 key
    extra_body={
        "enable_thinking": True,  # 可选：启用思维链，让模型展示思考过程
        "return_reasoning": True,
    },
    streaming=False,  # 第一次我们先关掉流式，看看普通响应
)

# 问个简单问题试试
response = chat_model.invoke("你是谁？")
print(response.content)

运行这段代码，如果一切正常，你应该能看到模型返回的自我介绍，比如'我是通义千问，一个由阿里云开发的大语言模型...'。这说明模型服务已经成功跑起来了。

2. 流式响应能力实战验证

基础调用没问题了，接下来就是重头戏：验证流式响应。流式响应最大的好处是用户不用等模型全部生成完就能看到开头，体验上就像真人打字一样，感觉更即时。

2.1 开启流式调用

验证方法很简单，就是把上面代码里的 streaming 参数改成 True，然后用一个循环来逐步获取内容。

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

from langchain_openai import ChatOpenAI

chat_model_stream = ChatOpenAI(
    model="Qwen3-1.7B",
    temperature=0.5,
    base_url="https://你的服务地址/v1",
    api_key="EMPTY",
    streaming=True,  # 关键：这里设置为 True
)

# 使用流式方式调用
stream_response = chat_model_stream.stream("请用中文介绍一下你自己。")
print("开始流式接收回答：")
for chunk in stream_response:
    if hasattr(chunk, 'content'):
        print(chunk.content, flush=True)  # 让内容不换行，flush=True 实时打印

特性	普通响应 (Streaming=False)	流式响应 (Streaming=True)
等待时间	需等待模型生成全部内容后才一次性返回，用户有空白等待期。	首字返回时间快，用户几乎立刻就能看到内容开始出现。
用户体验	类似收到一条完整的短信，缺乏交互感。	类似看着对方实时打字，交互感和沉浸感更强。
后端处理	服务器生成完整响应后一次性发送，内存占用在最后释放。	服务器边生成边发送，可以实现更复杂的内存和连接管理。
适用场景	适合对实时性要求不高的任务，如生成报告、总结文本。	非常适合对话、实时助手、创意写作等需要强交互的场景。

from fastapi import FastAPI, HTTPException
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
from langchain_openai import ChatOpenAI
import asyncio
import os

app = FastAPI(title="Qwen3-1.7B Stream API")

# 初始化模型（全局一个实例就好）
chat_model = ChatOpenAI(
    model="Qwen3-1.7B",
    temperature=0.5,
    base_url="http://localhost:8000/v1",  # 假设模型服务跑在本地 8000 端口
    api_key="EMPTY",
    streaming=True,
)

class ChatRequest(BaseModel):
    message: str
    temperature: float = 0.5

@app.post("/chat/stream")
async def chat_stream(request: ChatRequest):
    """
    流式聊天接口。
    前端发送一个 POST 请求，这个接口会以流的形式返回模型生成的内容。
    """
    try:
        # 调用模型，获取流式响应对象
        stream = chat_model.stream(request.message)

        # 定义一个异步生成器函数，用于逐步发送数据
        async def event_generator():
            for chunk in stream:
                if hasattr(chunk, 'content') and chunk.content:
                    # 将每个内容块以 SSE (Server-Sent Events) 格式发送
                    # `data:` 是 SSE 的标准格式，前端可以直接用 EventSource 解析
                    yield f"data: {chunk.content}\n\n"
            # 发送一个结束标记
            yield "data: [DONE]\n\n"

        # 使用 StreamingResponse 返回流式响应，媒体类型设为 text/event-stream
        return StreamingResponse(event_generator(), media_type="text/event-stream")
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"模型调用失败：{str(e)}")

@app.get("/health")
async def health_check():
    """健康检查接口，用于测试服务是否正常。"""
    return {"status": "healthy", "model": "Qwen3-1.7B"}

uvicorn api_server:app --host 0.0.0.0 --port 9000 --reload

curl -N -X POST http://localhost:9000/chat/stream \
-H "Content-Type: application/json" \
-d '{"message": "你好，请介绍一下杭州。"}'

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Qwen3-1.7B 流式聊天演示</title>
    <style>
        body {
            font-family: sans-serif;
            max-width: 800px;
            margin: 40px auto;
            padding: 20px;
        }
        #chatBox {
            border: 1px solid #ccc;
            height: 400px;
            overflow-y: auto;
            padding: 10px;
            margin-bottom: 20px;
        }
        .message {
            margin-bottom: 15px;
        }
        .user {
            text-align: right;
            color: #0066cc;
        }
        .bot {
            text-align: left;
            color: #333;
        }
        #inputArea {
            display: flex;
        }
        #userInput {
            flex-grow: 1;
            padding: 10px;
            font-size: 16px;
        }
        button {
            padding: 10px 20px;
            font-size: 16px;
            cursor: pointer;
        }
    </style>
</head>
<body>
    <h2>🤖 Qwen3-1.7B 流式聊天演示</h2>
    <div id="chatBox"></div>
    <div id="inputArea">
        <input type="text" placeholder="输入你的问题..." id="userInput" />
        <button onclick="sendMessage()">发送</button>
    </div>
    <script>
        const chatBox = document.getElementById('chatBox');
        const userInput = document.getElementById('userInput');

        // 添加用户消息到聊天框
        function addUserMessage(text) {
            const msgDiv = document.createElement('div');
            msgDiv.className = 'message user';
            msgDiv.textContent = `你：${text}`;
            chatBox.appendChild(msgDiv);
            chatBox.scrollTop = chatBox.scrollHeight; // 滚动到底部
        }

        // 添加机器人消息，并创建一个用于流式显示的元素
        function addBotMessagePlaceholder() {
            const msgDiv = document.createElement('div');
            msgDiv.className = 'message bot';
            msgDiv.innerHTML = `AI: <span></span>`; // 留一个 span 来动态更新内容
            chatBox.appendChild(msgDiv);
            chatBox.scrollTop = chatBox.scrollHeight;
            return msgDiv.querySelector('span');
        }

        // 发送消息到后端流式接口
        async function sendMessage() {
             message = userInput..();
             (!message) ;
            (message);
            userInput. = ; 
             streamingElement = ();
             accumulatedText = ;

             {
                
                 response =  (, {
                    : ,
                    : {
                        : 
                    },
                    : .({ : message })
                });
                 (!response.) {
                      ();
                }
                 reader = response..();
                 decoder =  ();

                
                 () {
                     { done, value } =  reader.();
                     (done) ; 

                    
                     chunk = decoder.(value);
                     lines = chunk.();
                     ( line  lines) {
                         (line.()) {
                             data = line.(); 
                             (data === ) {
                                
                                .();
                                ;
                            }
                             (data) {
                                accumulatedText += data; 
                                streamingElement. = accumulatedText;
                                chatBox. = chatBox.; 
                            }
                        }
                    }
                }
            }  (error) {
                .(, error);
                streamingElement. = ;
            }
        }

        
        userInput.(, () {
             (e. === ) {
                ();
            }
        });
    </script>
</body>
</html>

Qwen3-1.7B 流式响应实战验证与前端集成教程

Qwen3-1.7B 支持流式响应？实战验证与前端集成教程

1. 环境准备与快速启动

1.1 启动 Jupyter Notebook 环境

1.2 验证基础调用

2. 流式响应能力实战验证

2.1 开启流式调用

更多推荐文章

相关免费在线工具

2.2 与普通响应的对比

3. 构建一个简单的流式 API 后端

3.1 使用 FastAPI 创建接口

3.2 启动并测试 API 服务

4. 前端集成：实现打字机效果

4.1 创建前端页面

4.2 前端代码核心解析

5. 总结与扩展思考

更多推荐文章

相关免费在线工具

Qwen3-1.7B 流式响应实战验证与前端集成教程

Qwen3-1.7B 支持流式响应？实战验证与前端集成教程

1. 环境准备与快速启动

1.1 启动 Jupyter Notebook 环境

1.2 验证基础调用

2. 流式响应能力实战验证

2.1 开启流式调用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 与普通响应的对比

3. 构建一个简单的流式 API 后端

3.1 使用 FastAPI 创建接口

3.2 启动并测试 API 服务

4. 前端集成：实现打字机效果

4.1 创建前端页面

4.2 前端代码核心解析

5. 总结与扩展思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具