Qwen3-Omni 快速参考
核心指标一览
模型规模
总参数量:~35B
激活参数:~4.5B
Thinker: 30B-A3B (MoE)
Talker: 3B-A0.3B (MoE)
Audio Enc: 650M
Vision Enc: 540M
MTP: 80M
Code2Wav: 200M
性能指标
首包延迟 (音频): 234ms
首包延迟 (视频): 547ms
生成 RTF: 0.47 (1 并发) ~ 0.66 (6 并发)
Thinker TPS: 53-75 tokens/s
Talker TPS: 110-140 tokens/s
音频采样率:12.5Hz (80ms/帧)
码本数量:15 个
架构速览
整体流程
输入 → 编码器 → Thinker → Talker → MTP → Code2Wav → 输出
详细流程
[文本/音频/图像/视频]
↓
[Tokenizer / AuT / Vision Encoder]
↓
↓
↓
↓
↓
↓
↓

