Qwen3-ASR 开源语音识别模型架构与使用指南 | 极客日志

PythonAI算法

Qwen3-ASR 开源语音识别模型架构与使用指南

Qwen3-ASR 系列包含 1.7B 和 0.6B 两款模型，支持 52 种语言及方言识别与转写。具备高鲁棒性、流式推理及强制对齐能力。提供 transformers 和 vLLM 双后端支持，兼容 Docker 部署及 Web UI 演示。适用于复杂声学环境下的语音处理任务。

赛博行者发布于 2026/3/25更新于 2026/6/45.2K 浏览

Qwen3-ASR 系列包含 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 两款模型，支持 52 种语言与方言的语种识别及语音转写。二者均基于大规模语音训练数据及基座模型 Qwen3-Omni 强大的音频理解能力构建。实验表明，1.7B 版本在开源 ASR 模型中达到最优性能，并可媲美最强的商业专有 API。主要特性如下：

全能识别：Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言及 22 种汉语方言的语种识别与语音转写，同时涵盖多国英语口音识别。
又快又准：该系列模型在复杂声学环境和挑战性文本场景下仍保持高质量、高鲁棒性的识别效果。Qwen3-ASR-1.7B 在开源及内部测试集上均取得领先性能，0.6B 版本则在精度与效率间取得平衡，在 128 并发下实现 2000 倍吞吐量。二者均支持单模型流式/非流式统一推理，并具备长音频转录能力。
创新强对齐方案：我们推出 Qwen3-ForcedAligner-0.6B，支持 11 种语言的语音内容在 5 分钟内任意单元的时间戳预测。评估显示其时间戳精度超越现有端到端强制对齐模型。
完整推理工具链：除开源 Qwen3-ASR 系列架构及权重外，我们还发布了功能强大的全特性推理框架，支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等功能。

模型架构

已发布模型说明与下载

以下是 Qwen3-ASR 系列模型的介绍与下载信息，请根据需求选择下载对应模型。

模型	支持语言	支持方言	推理模式	音频类型
Qwen3-ASR-1.7B & Qwen3-ASR-0.6B	中文 (zh)、英文 (en)、粤语 (yue)、阿拉伯语 (ar)、德语 (de)、法语 (fr)、西班牙语 (es)、葡萄牙语 (pt)、印尼语 (id)、意大利语 (it)、韩语 (ko)、俄语 (ru)、泰语 (th)、越南语 (vi)、日语 (ja)、土耳其语 (tr)、印地语 (hi)、马来语 (ms)、荷兰语 (nl)、瑞典语 (sv)、丹麦语 (da)、芬兰语 (fi)、波兰语 (pl)、捷克语 (cs)、菲律宾语 (fil)、波斯语 (fa)、希腊语 (el)、匈牙利语 (hu)、马其顿语 (mk)、罗马尼亚语 (ro)	安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语 (港式口音)、粤语 (广式口音)、吴语、闽南语	离线/流式	人声、歌声、带背景音乐歌曲
Qwen3-ForcedAligner-0.6B	中文、英文、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语	–	NAR	人声

使用 qwen-asr 包或 vLLM 加载模型时，会根据模型名称自动下载模型权重。若运行环境不允许执行时下载权重，可使用以下命令将模型权重提前下载至本地目录：

# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B

# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B

快速开始

环境配置

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

pip install -U qwen-asr

pip install -U qwen-asr[vllm]

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"

pip install -U flash-attn --no-build-isolation

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32,  # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256,  # Maximum number of tokens to generate. Set a larger value for long audio input.
)
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # set "English" to force the language
)
print(results[0].language)
print(results[0].text)

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32,
    max_new_tokens=256,
    forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
    forced_aligner_kwargs=dict(
        dtype=torch.bfloat16,
        device_map="cuda:0",
        # attn_implementation="flash_attention_2",
    ),
)
results = model.transcribe(
    audio=[
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    ],
    language=["Chinese", "English"],  # can also be set to None for automatic language detection
    return_time_stamps=True,
)
for r in results:
    print(r.language, r.text, r.time_stamps[0])

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == '__main__':
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128,
        max_new_tokens=4096,
        forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
        forced_aligner_kwargs=dict(
            dtype=torch.bfloat16,
            device_map="cuda:0",
            # attn_implementation="flash_attention_2",
        ),
    )
    results = model.transcribe(
        audio=[
            "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
            "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
        ],
        language=["Chinese", "English"],
        return_time_stamps=True,
    )
    for r in results:
        print(r.language, r.text, r.time_stamps[0])

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

import requests
url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"},
                }
            ],
        }
    ]
}
response = requests.post(url, headers=headers, json=data, timeout=300)
response.raise_for_status()
content = response.json()['choices'][0]['message']['content']
print(content)  # parse ASR output if you want
from qwen_asr import parse_asr_output
language, text = parse_asr_output(content)
print(language)
print(text)

import torch
from qwen_asr import Qwen3ForcedAligner

model = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
)
results = model.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)
print(results[0])
print(results[0][0].text, results[0][0].start_time, results[0][0].end_time)

qwen-asr-demo --help

# Transformers backend
qwen-asr-demo \
    --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
    --backend transformers \
    --cuda-visible-devices 0 \
    --ip 0.0.0.0 --port 8000

# Transformers backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
    --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
    --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
    --backend transformers \
    --cuda-visible-devices 0 \
    --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
    --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
    --ip 0.0.0.0 --port 8000

# vLLM backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
    --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
    --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
    --backend vllm \
    --cuda-visible-devices 0 \
    --backend-kwargs '{"gpu_memory_utilization":0.7,"max_inference_batch_size":8,"max_new_tokens":2048}' \
    --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
    --ip 0.0.0.0 --port 8000

# Example: override transformers init args without flash attention
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}'
# Example: override vLLM init args with 65% GPU memory
--backend-kwargs '{"gpu_memory_utilization":0.65}'

# Use GPU 0
--cuda-visible-devices 0
# Use GPU 1
--cuda-visible-devices 1

# No forced aligner
qwen-asr-demo --asr-checkpoint Qwen/Qwen3-ASR-1.7B
# With forced aligner
qwen-asr-demo \
    --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
    --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B

openssl req -x509 -newkey rsa:2048 \
    -keyout key.pem -out cert.pem \
    -days 365 -nodes \
    -subj "/CN=localhost"

qwen-asr-demo \
    --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
    --backend transformers \
    --cuda-visible-devices 0 \
    --ip 0.0.0.0 --port 8000 \
    --ssl-certfile cert.pem \
    --ssl-keyfile key.pem \
    --no-ssl-verify

qwen-asr-demo-streaming \
    --asr-model-path Qwen/Qwen3-ASR-1.7B \
    --host 0.0.0.0 \
    --port 8000 \
    --gpu-memory-utilization 0.9

uv venv
source .venv/bin/activate
uv pip install -U vllm --pre \
    --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
    --extra-index-url https://download.pytorch.org/whl/cu129 \
    --index-strategy unsafe-best-match
uv pip install "vllm[audio]"  # For additional audio dependencies

vllm serve Qwen/Qwen3-ASR-1.7B

import base64
import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

# Create multimodal chat completion request
response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[{
        "role": "user",
        "content": [{"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}]
    }],
)
print(response.choices[0].message.content)

import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
audio_file = httpx.get(audio_url).content
transcription = client.audio.transcriptions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    file=audio_file,
)
print(transcription.text)

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{ "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav" } } ] } ] }'

from vllm import LLM, SamplingParams
from vllm.assets.audio import AudioAsset
import base64
import requests

# Initialize the LLM
llm = LLM(model="Qwen/Qwen3-ASR-1.7B")

# Load audio
audio_asset = AudioAsset("winning_call")

# Create conversation with audio content
conversation = [{"role": "user", "content": [{"type": "audio_url", "audio_url": {"url": audio_asset.url}}]}]
sampling_params = SamplingParams(temperature=0.01, max_tokens=256)

# Run inference using .chat()
outputs = llm.chat(conversation, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

LOCAL_WORKDIR=/path/to/your/workspace
HOST_PORT=8000
CONTAINER_PORT=80
docker run --gpus all --name qwen3-asr \
    -v /var/run/docker.sock:/var/run/docker.sock -p $HOST_PORT:$CONTAINER_PORT \
    --mount type=bind,source=$LOCAL_WORKDIR,target=/data/shared/Qwen3-ASR \
    --shm-size=4gb \
    -it qwenllm/qwen3-asr:latest

docker start qwen3-asr
docker exec -it qwen3-asr bash

docker rm -f qwen3-asr

Qwen3-ASR 开源语音识别模型架构与使用指南

模型架构

已发布模型说明与下载

快速开始

环境配置

更多推荐文章

相关免费在线工具

Python 包使用指南

快速推理

vLLM 后端

流式推理

强制对齐器使用

启动本地 Web UI 演示

Gradio 演示

后端说明

CUDA 设备说明

时间戳说明

HTTPS 注意事项

流式演示

使用 vLLM 部署

安装

在线服务

使用 OpenAI SDK

使用 cURL

离线推理

Docker

更多推荐文章

相关免费在线工具

Qwen3-ASR 开源语音识别模型架构与使用指南

模型架构

已发布模型说明与下载

快速开始

环境配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Python 包使用指南

快速推理

vLLM 后端

流式推理

强制对齐器使用

启动本地 Web UI 演示

Gradio 演示

后端说明

CUDA 设备说明

时间戳说明

HTTPS 注意事项

流式演示

使用 vLLM 部署

安装

在线服务

使用 OpenAI SDK

使用 cURL

离线推理

Docker

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具