Qwen3-0.6B 实战：构建原生支持思考链的对话机器人 | 极客日志

PythonAI算法

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

综述由AI生成Qwen3-0.6B 模型通过原生嵌入思考链（Chain-of-Thought），实现了轻量级推理能力。演示如何基于 LangChain 快速部署，配置 enable_thinking 参数激活内部推理引擎，并通过 /think 指令灵活控制思考模式。结合会话历史管理与温度调节，可构建具备逻辑推导、多轮记忆及结构化输出的智能对话机器人，适用于数学计算、代码审查等场景。

灭霸发布于 2026/4/11更新于 2026/5/249 浏览

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

你是否试过让一个 AI 在回答前'想一想'？不是简单地拼凑词句，而是像人一样拆解问题、验证逻辑、逐步推导，最后给出清晰结论。这种能力过去只属于百亿参数大模型，但现在，一个仅 6 亿参数的轻量级模型就能做到。

Qwen3-0.6B 不是一次简单的'缩水'，而是一次精准的工程重构：它把'思考链'（Chain-of-Thought）原生嵌入模型架构。不靠外部提示工程，不依赖复杂插件，只需一行配置，就能唤醒它的推理意识。

本文聚焦一件事：如何用最简路径，在本地或云端快速启动一个真正会思考的对话机器人。从环境搭建到 LangChain 调用，再到多轮思考模式切换，所有步骤都经过实测验证，代码可直接复制运行。

1. 快速启动：三步跑通第一个思考型对话

1.1 环境准备与连接

确保你的开发环境已安装 transformers、vLLM 或 LangChain 等核心依赖。启动服务后，你需要确认 API 地址格式。通常端口固定为 8000，这是后续调用的关键。

浏览器中访问 Jupyter Lab 界面，注意地址栏中的域名是否与代码中的 base_url 完全一致——少一个字符都会导致连接失败。

1.2 理解核心配置：为什么这行代码能触发'思考'

关键不在模型名，而在 extra_body 参数。这不是一个简单的开关，而是一套行为协议：

extra_body={ 
    "enable_thinking": True, 
    "return_reasoning": True, 
}

enable_thinking: True 告诉模型启用内部推理引擎，激活 GQA 注意力机制中专用于逻辑追踪的查询头组；
return_reasoning: True 要求模型将推理过程与最终答案分离输出，中间用标准标记包裹。

这意味着，模型不会把'思考'藏在黑盒里，而是把每一步推导都透明化呈现——这对调试、教学和可信 AI 至关重要。

1.3 运行首条思考指令

在 Notebook 单元格中执行以下代码，亲眼见证'思考链'的生成：

from langchain_openai import ChatOpenAI
import os

chat_model = ChatOpenAI(
    model="Qwen-0.6B",
    temperature=0.5,
    base_url="https://your-api-endpoint/v1",  # 替换为你的实际 API 地址
    api_key="EMPTY",
    extra_body={
        "enable_thinking": True,
        "return_reasoning": True,
    },
    streaming=True,
)

response = chat_model.invoke("请计算：一个边长为 5cm 的正方体，其表面积和体积分别是多少？")
print(response.content)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

</think>正方体有 6 个面，每个面是边长为 5cm 的正方形。
单个面面积 = 5 × 5 = 25 cm²
总表面积 = 6 × 25 = 150 cm²
体积 = 边长³ = 5³ = 125 cm³<RichMediaReference>
表面积是 150 cm²，体积是 125 cm³。

# 所有调用均启用思考，并返回完整推理链
chat_model = ChatOpenAI(
    model="Qwen-0.6B",
    base_url="...",
    api_key="EMPTY",
    extra_body={"enable_thinking": True, "return_reasoning": True},
)

# 强制本次启用思考（忽略 extra_body 设置）
messages = [
    {"role": "user", "content": "/think 请分析这个 Python 函数的时间复杂度：def bubble_sort(arr): ..."}
]
chat_model.invoke(messages)

# 强制本次禁用思考（适合闲聊、问候等低认知负荷场景）
messages = [
    {"role": "user", "content": "/no_think 你好呀！今天天气怎么样？"}
]
chat_model.invoke(messages)

messages = [
    {
        "role": "user",
        "content": """ /think 计算斐波那契数列第 20 项是多少？ /no_think 斐波那契数列的定义是什么？ """
    }
]
response = chat_model.invoke(messages)

pip install langchain langchain-openai python-dotenv

from langchain_core.messages import HumanMessage, AIMessage
from langchain_core.chat_history import InMemoryChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_openai import ChatOpenAI

# 初始化带记忆的模型
chat_model = ChatOpenAI(
    model="Qwen-0.6B",
    base_url="https://your-api-endpoint/v1",
    api_key="EMPTY",
    extra_body={"enable_thinking": True, "return_reasoning": True},
    temperature=0.3,  # 思考模式下降低温度，提升逻辑严谨性
)

# 创建内存聊天历史
store = {}
def get_session_history(session_id: str):
    if session_id not in store:
        store[session_id] = InMemoryChatMessageHistory()
    return store[session_id]

# 封装为可记忆的 Runnable
with_message_history = RunnableWithMessageHistory(
    chat_model,
    get_session_history,
    input_messages_key="input",
    history_messages_key="history",
)

# 使用示例
config = {"configurable": {"session_id": "abc123"}}

# 第一轮：启用思考
response1 = with_message_history.invoke(
    {"input": "/think 一个圆柱体底面半径 3cm，高 8cm，求侧面积和体积"},
    config
)
print("【思考结果】", response1.content)

# 第二轮：延续上下文，但禁用思考（快速确认）
response2 = with_message_history.invoke(
    {"input": "/no_think 刚才算出的体积是多少？"},
    config
)
print("【快速确认】", response2.content)

import re

def extract_reasoning(text: str) -> str:
    match = re.search(r"</think>(.*?)<RichMediaReference>", text, re.DOTALL)
    return match.group(1).strip() if match else "无推理过程"

def format_response(full_text: str) -> str:
    reasoning = extract_reasoning(full_text)
    answer = full_text.split("<RichMediaReference>")[-1].strip()
    return f"""🧠 **推理过程**： {reasoning}
**最终答案**： {answer}"""

# 使用示例
formatted = format_response(response1.content)
print(formatted)

temperature	适用场景	表现特征
0.1–0.3	数学计算、代码生成、逻辑验证	推理步骤严格、重复率低、答案确定性强
0.4–0.6	多步骤分析、方案对比、因果推断	步骤合理、有适度发散、兼顾全面性
0.7+	创意写作、故事续写、开放问答	思考链更自由、可能引入类比和隐喻

# 简单计算：限制在 256 token 内，避免冗余步骤
chat_model.invoke("计算 12×15", max_new_tokens=256)

# 复杂推导：放宽至 1024 token，允许展开多层逻辑
chat_model.invoke("请用归纳法证明：1+2+3+...+n = n(n+1)/2", max_new_tokens=1024)

def smart_invoke(user_input: str, need_thinking: bool):
    prefix = "/think " if need_thinking else "/no_think "
    return chat_model.invoke(prefix + user_input)

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

1. 快速启动：三步跑通第一个思考型对话

1.1 环境准备与连接

1.2 理解核心配置：为什么这行代码能触发'思考'

1.3 运行首条思考指令

更多推荐文章

相关免费在线工具

2. 深度控制：掌握思考模式的三种开关方式

2.1 全局开关：通过 extra_body 统一启用

2.2 单次开关：在消息中嵌入指令标记

2.3 模式混合：在同一次响应中分段控制

3. 实战进阶：构建可交互的思考型聊天机器人

3.1 安装必要依赖

3.2 构建带状态的思考机器人

3.3 可视化思考过程：让推理链一目了然

4. 场景优化：针对不同任务调整思考强度

4.1 温度（temperature）：控制思考的'严谨性'

4.2 最大生成长度（max_new_tokens）：约束思考的'深度'

5. 常见问题与避坑指南

5.1 为什么调用时返回 ConnectionError？

5.2 思考链中出现乱码或截断？

5.3 多轮对话中思考模式失效？

5.4 如何判断当前是否在思考模式？

6. 总结：思考不是功能，而是对话的底层范式

更多推荐文章

相关免费在线工具

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

Qwen3-0.6B 实战：构建原生支持思考链的对话机器人

1. 快速启动：三步跑通第一个思考型对话

1.1 环境准备与连接

1.2 理解核心配置：为什么这行代码能触发'思考'

1.3 运行首条思考指令

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 深度控制：掌握思考模式的三种开关方式

2.1 全局开关：通过 extra_body 统一启用

2.2 单次开关：在消息中嵌入指令标记

2.3 模式混合：在同一次响应中分段控制

3. 实战进阶：构建可交互的思考型聊天机器人

3.1 安装必要依赖

3.2 构建带状态的思考机器人

3.3 可视化思考过程：让推理链一目了然

4. 场景优化：针对不同任务调整思考强度

4.1 温度（temperature）：控制思考的'严谨性'

4.2 最大生成长度（max_new_tokens）：约束思考的'深度'

5. 常见问题与避坑指南

5.1 为什么调用时返回 ConnectionError？

5.2 思考链中出现乱码或截断？

5.3 多轮对话中思考模式失效？

5.4 如何判断当前是否在思考模式？

6. 总结：思考不是功能，而是对话的底层范式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具