Xinference v1.17.1：在 Jupyter 中加载 Qwen、Llama3 及 Whisper 模型 | 极客日志

PythonAI算法

Xinference v1.17.1：在 Jupyter 中加载 Qwen、Llama3 及 Whisper 模型

综述由AI生成如何在 Jupyter Notebook 中使用 Xinference v1.17.1 部署开源模型。内容包括环境安装、本地服务启动、以及加载 Qwen、Llama3 文本模型和 Whisper 语音识别模型的具体步骤。教程展示了如何通过 Python API 进行模型交互、多轮对话、语音转录，并提供了 OpenAI 兼容接口的调用示例。此外，还涵盖了模型管理、终止及资源优化等高级技巧，帮助用户实现本地化、低成本的 AI 推理服务。

利刃发布于 2026/4/5更新于 2026/5/2331 浏览

Xinference-v1.17.1 详细步骤：在 Jupyter 中加载 Qwen/Llama3/Whisper 并实时交互

1. 为什么选择 Xinference？它能解决什么痛点？

Xinference 是一个开源的一站式模型推理和服务平台。它把各种开源模型的部署、运行和调用都标准化、简单化了。

主要解决的痛点包括：

部署复杂：不同模型（PyTorch, TensorFlow, GGML 格式等）的部署方式千差万别，依赖和环境冲突是家常便饭。
资源管理难：模型动辄几十 GB，如何高效利用有限的 GPU 和 CPU 内存？如何做模型量化？
API 不统一：每个开源项目提供的调用方式都不一样，想切换个模型就得重写一大段代码。
生产级服务缺失：很多开源模型只提供了推理脚本，缺乏高并发、可监控的 API 服务能力。

而 Xinference 通过一个统一的命令行和 Python API，把这些问题都打包解决了。它的核心特点是'一个命令启动模型，一行代码切换模型'。

2. 环境准备：安装 Xinference

我们的目标是在 Jupyter Notebook 中交互，所以安装过程也在 Jupyter 中进行。

2.1 安装 Xinference 核心库

打开你的 Jupyter Notebook，在一个新的代码单元格中，执行以下命令来安装 Xinference。这里我们指定安装 1.17.1 版本。

!pip install -U "xinference[all]==1.17.1"

参数解释：

-U：确保升级到最新版本。
xinference[all]：安装 Xinference 及其所有额外依赖（包括 GPU 支持、Web UI 等）。如果你只需要基础功能，可以只安装 xinference。
==1.17.1：指定安装版本，确保和本教程一致。

安装过程可能会持续几分钟，因为它会下载并安装一些较大的依赖包。

2.2 验证安装是否成功

安装完成后，我们可以通过 Python 来验证，也可以检查命令行工具。

方法一：在 Notebook 中验证

import xinference print(f"Xinference 版本：{xinference.__version__}")

如果成功输出版本号 1.17.1，说明核心库安装成功。

方法二：使用命令行验证（在 Notebook 中）

!xinference --version

同样，你应该能看到版本号信息。

3. 启动 Xinference 本地服务

Xinference 采用客户端 - 服务器架构。我们需要先启动一个本地推理服务（Server），然后通过客户端（Client）去连接并管理模型。

3.1 启动服务

在 Jupyter 中，我们可以在一个独立的代码单元格里启动服务。为了不影响后续交互，我们通常会在后台启动它，或者另起一个终端。但在 Notebook 里演示，我们可以先在前台启动，观察日志。

from xinference.local  start_local_cluster

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

xinference local -H 127.0.0.1 -p 9998

from xinference.client import Client # 创建客户端，指向我们启动的服务地址 client = Client("http://127.0.0.1:9998") # 检查服务状态 print(client.list_models()) # 初始应为空列表 []

# 第一步：从模型仓库拉取并加载模型 # model_uid 是你给这个模型实例起的名字，方便后续调用 # model_name 指定要加载的具体模型 # model_format 指定模型格式，'ggmlv3' 是量化格式，对 CPU/内存更友好 # quantization 指定量化等级，'q4_0' 在精度和速度间取得较好平衡 model_uid_qwen = client.launch_model( model_name="qwen2.5-7b-instruct", model_format="ggmlv3", quantization="q4_0", # 如果你的机器有 GPU，可以指定设备，加速推理 # n_gpu=1 ) print(f"Qwen2.5 模型加载成功，UID: {model_uid_qwen}")

# 获取模型对象 model_qwen = client.get_model(model_uid_qwen) # 进行简单的文本生成 prompt = "请用 Python 写一个快速排序算法的函数，并添加中文注释。" response = model_qwen.chat(prompt=prompt) print("Qwen2.5 回答：") print(response["choices"][0]["message"]["content"]) print("\n" + "="*50 + "\n") # 进行多轮对话（带有历史消息） messages = [ {"role": "system", "content": "你是一个乐于助人的编程助手。"}, {"role": "user", "content": "什么是装饰器（Decorator）？"} ] response_with_history = model_qwen.chat(messages=messages) print("Qwen2.5 回答（带系统指令）：") print(response_with_history["choices"][0]["message"]["content"]) # 继续对话，模型会自动记住上下文 follow_up = {"role": "user", "content": "能给我一个简单的例子吗？"} messages.append(response_with_history["choices"][0]["message"]) messages.append(follow_up) response_followup = model_qwen.chat(messages=messages) print("\nQwen2.5 回答（跟进问题）：") print(response_followup["choices"][0]["message"]["content"])

# 加载 Llama-3.2-3B-Instruct 模型 model_uid_llama = client.launch_model( model_name="llama-3.2-3b-instruct", model_format="ggmlv3", quantization="q4_0", ) print(f"Llama-3.2 模型加载成功，UID: {model_uid_llama}") # 获取模型对象 model_llama = client.get_model(model_uid_llama) # 与 Llama3 对话 (这是一个英文为主的模型，我们用英文提问效果更好) prompt_en = "Explain the concept of quantum computing to a high school student in three sentences." response_llama = model_llama.chat(prompt=prompt_en) print("Llama-3.2 回答：") print(response_llama["choices"][0]["message"]["content"])

# 加载 Whisper-large-v3 语音识别模型 model_uid_whisper = client.launch_model( model_name="whisper-large-v3", model_type="audio" # 语音模型通常不需要指定 format 和 quantization ) print(f"Whisper-large-v3 模型加载成功，UID: {model_uid_whisper}") # 获取模型对象 model_whisper = client.get_model(model_uid_whisper) # 进行语音识别 # 注意：这里需要将音频文件读取为字节流或 base64 编码。 # 以下示例展示从本地文件读取 import base64 audio_path = "test_audio.wav" with open(audio_path, "rb") as f: audio_bytes = f.read() audio_b64 = base64.b64encode(audio_bytes).decode('utf-8') # 调用转录接口 transcription = model_whisper.audio.transcriptions.create( file=audio_b64, model="whisper-large-v3", response_format="verbose_json" # 获取详细输出 ) print("Whisper 识别结果：") print(f"语言：{transcription.language}") print(f"文本：{transcription.text}")

# 1. 查看当前所有已加载的模型 all_models = client.list_models() print("当前运行中的模型：") for model in all_models: print(f"- UID: {model['model_uid']}, Name: {model['model_name']}, Status: {model['status']}") # 2. 终止一个模型（释放内存） # client.terminate_model(model_uid_qwen) # print(f"已终止模型：{model_uid_qwen}") # 3. 复用模型 # 只要模型还在运行，你可以随时在其他地方通过 UID 获取它，无需重新加载。 # 例如，重启 Jupyter 内核后，只需重新连接客户端，然后： # model_qwen = client.get_model('之前记录的 model_uid_qwen') # 即可继续使用。

# 使用 openai 库的格式调用（需要安装 openai 包：!pip install openai） from openai import OpenAI # 将 Xinference 服务地址作为 base_url client_openai = OpenAI( base_url="http://127.0.0.1:9998/v1", api_key="not-needed" # Xinference 不需要有效的 API key ) # 使用 ChatCompletion 接口 completion = client_openai.chat.completions.create( model=model_uid_qwen, # 这里填写你要使用的模型 UID messages=[ {"role": "user", "content": "你好，请介绍一下你自己。"} ], stream=True # 支持流式输出 ) # 流式打印结果 print("流式输出：") for chunk in completion: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content,, flush=True)

Xinference v1.17.1：在 Jupyter 中加载 Qwen、Llama3 及 Whisper 模型

Xinference-v1.17.1 详细步骤：在 Jupyter 中加载 Qwen/Llama3/Whisper 并实时交互

1. 为什么选择 Xinference？它能解决什么痛点？

2. 环境准备：安装 Xinference

2.1 安装 Xinference 核心库

2.2 验证安装是否成功

3. 启动 Xinference 本地服务

3.1 启动服务

更多推荐文章

相关免费在线工具

3.2 连接到服务并初始化客户端

4. 核心实战：加载并交互三大类模型

4.1 加载并运行通义千问 Qwen2.5

4.2 加载并运行 Llama-3.2-3B

4.3 加载并运行 Whisper 语音识别模型

5. 模型管理与高级技巧

5.1 查看、终止与复用模型

5.2 使用 OpenAI 兼容的 API

6. 总结

更多推荐文章

相关免费在线工具

Xinference v1.17.1：在 Jupyter 中加载 Qwen、Llama3 及 Whisper 模型

Xinference-v1.17.1 详细步骤：在 Jupyter 中加载 Qwen/Llama3/Whisper 并实时交互

1. 为什么选择 Xinference？它能解决什么痛点？

2. 环境准备：安装 Xinference

2.1 安装 Xinference 核心库

2.2 验证安装是否成功

3. 启动 Xinference 本地服务

3.1 启动服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 连接到服务并初始化客户端

4. 核心实战：加载并交互三大类模型

4.1 加载并运行通义千问 Qwen2.5

4.2 加载并运行 Llama-3.2-3B

4.3 加载并运行 Whisper 语音识别模型

5. 模型管理与高级技巧

5.1 查看、终止与复用模型

5.2 使用 OpenAI 兼容的 API

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具