Qwen3-Omni 架构详解：Thinker-Talker 与 MoE 设计 | 极客日志

PythonAI算法

Qwen3-Omni 架构详解：Thinker-Talker 与 MoE 设计

Qwen3-Omni 采用 Thinker-Talker 双模块架构，结合 MoE 稀疏激活技术实现低延迟高并发。模型总参数约 35B，激活仅 4.5B。通过异步分块预填充和轻量级 ConvNet 合成器，音频首包延迟降至 234ms。多码本自回归机制配合 TM-RoPE 位置编码，在保持高保真音质的同时支持流式交互。相比前代，解耦设计允许外部干预与独立风格控制，适合实时对话与多模态场景。

活在当下发布于 2026/3/30更新于 2026/7/2434 浏览

Qwen3-Omni 快速参考

核心指标一览

模型规模

总参数量：~35B
激活参数：~4.5B
Thinker: 30B-A3B (MoE)
Talker: 3B-A0.3B (MoE)
Audio Enc: 650M
Vision Enc: 540M
MTP: 80M
Code2Wav: 200M

性能指标

首包延迟 (音频): 234ms
首包延迟 (视频): 547ms
生成 RTF: 0.47 (1 并发) ~ 0.66 (6 并发)
Thinker TPS: 53-75 tokens/s
Talker TPS: 110-140 tokens/s
音频采样率：12.5Hz (80ms/帧)
码本数量：15 个

架构速览

整体流程

输入 → 编码器 → Thinker → Talker → MTP → Code2Wav → 输出

详细流程

[文本/音频/图像/视频]
↓
[Tokenizer / AuT / Vision Encoder]
↓

↓
 
↓

↓

↓

↓

↓

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型	首包延迟	改进
GPT-4o	~1000ms	-
Gemini 1.5	~800ms	-
Qwen2.5-Omni	~400ms	-
Qwen3-Omni	234ms	⬇️42%

模型类型	RTF (6 并发)	状态
Dense 30B	1.8	❌ 严重卡顿
Qwen2.5-Omni	1.2	❌ 卡顿
Qwen3-Omni	0.66	✅ 流畅

# 核心框架
vLLM >= 0.3.0
PyTorch >= 2.0
CUDA >= 11.8
# 优化工具
torch.compile
CUDA Graph
Flash Attention 2

# 单 GPU 启动
python -m vllm.entrypoints.api_server \
  --model Qwen3-Omni-30B-A3B \
  --tensor-parallel-size 1 \
  --max-num-seqs 2

# 多 GPU 启动 (4 并发)
python -m vllm.entrypoints.api_server \
  --model Qwen3-Omni-30B-A3B \
  --tensor-parallel-size 2 \
  --max-num-seqs 4 \
  --enable-chunked-prefill

# torch.compile 加速
import torch
mtp_module = torch.compile(mtp_module, mode="reduce-overhead")
code2wav = torch.compile(code2wav, mode="reduce-overhead")

# CUDA Graph
use_cuda_graph = True

# Flash Attention
use_flash_attn = True

from transformers import AutoModel, AutoTokenizer

# 加载 Thinker
thinker = AutoModel.from_pretrained("Qwen/Qwen3-Omni-30B-A3B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-Omni-30B-A3B")

# 加载 Talker
talker = AutoModel.from_pretrained("Qwen/Qwen3-Omni-Talker-3B-A0.3B")

# 文本输入
text = "你好，请介绍一下自己。"
inputs = tokenizer(text, return_tensors="pt")

# Thinker 生成
thinker_outputs = thinker.generate(**inputs, max_length=100)
text_response = tokenizer.decode(thinker_outputs[0])

# Talker 生成语音
audio_features = thinker.get_audio_features()
audio_output = talker.generate(audio_features)

import torchaudio

# 加载音频
waveform, sr = torchaudio.load("input.wav")

# 重采样到 16kHz
if sr != 16000:
    resampler = torchaudio.transforms.Resample(sr, 16000)
    waveform = resampler(waveform)

# 编码
audio_features = aut_encoder(waveform)

# 解码
output_waveform = code2wav(codebooks)

# 保存
torchaudio.save("output.wav", output_waveform, 16000)

import time

start = time.time()
output = model.generate(inputs)
latency = (time.time() - start) * 1000  # ms
print(f"延迟：{latency:.2f}ms")

num_tokens = len(output)
throughput = num_tokens / (latency / 1000)  # tokens/s
print(f"吞吐：{throughput:.2f} tokens/s")

audio_duration = num_tokens / 12.5 * 1000  # ms
rtf = latency / audio_duration
print(f"RTF: {rtf:.2f}")

import torch

print(f"已分配：{torch.cuda.memory_allocated()/1e9:.2f} GB")
print(f"已缓存：{torch.cuda.memory_reserved()/1e9:.2f} GB")
torch.cuda.empty_cache()

import logging

logging.basicConfig(level=logging.DEBUG)
logger = logging.getLogger("qwen3_omni")
logger.setLevel(logging.INFO)

术语	全称	含义
MoE	Mixture-of-Experts	混合专家模型
TTFT	Time-To-First-Token	首 token 时间
RTF	Real-Time Factor	实时因子
TPS	Tokens Per Second	每秒 token 数
RVQ	Residual Vector Quantization	残差向量量化
TM-RoPE	Time-aligned Multimodal RoPE	时间对齐多模态旋转位置编码
MTP	Multi-Token Prediction	多 token 预测
AuT	Audio Transformer	音频 Transformer
KV 缓存	Key-Value Cache	注意力机制的缓存
MOS	Mean Opinion Score	平均主观评分

Qwen3-Omni 架构详解：Thinker-Talker 与 MoE 设计

Qwen3-Omni 快速参考

核心指标一览

模型规模

性能指标

架构速览

整体流程

详细流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键技术点

性能对比

模块详解

Audio Transformer (AuT)

Vision Encoder

Thinker (30B-A3B)

Talker (3B-A0.3B)

MTP 模块

Code2Wav

部署指南

硬件要求

软件依赖

启动命令示例

优化配置

使用技巧

常用命令速查

模型加载

推理示例

音频处理

调试技巧

性能分析

内存监控

日志配置

术语表

常见问题解答 (FAQ)

Q1: 什么是 Thinker-Talker 架构？

Q2: 为什么 Talker 不依赖 Thinker 的文本表示？

Q3: 234ms 首包延迟是如何实现的？

Q4: 为什么选择 12.5Hz 的 token 率？

Q5: MoE 架构对并发有什么帮助？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具