FunASR 离线文件转写服务开发指南（实践篇） | 极客日志

PythonAIjava算法

FunASR 离线文件转写服务开发指南（实践篇）

FunASR 离线文件转写服务基于 Docker 部署，支持多种编程语言客户端调用。通过安装 Docker 拉取镜像，启动服务端并配置模型参数，可实现长音频及视频转写。服务集成 VAD、标点及 ITN 功能，支持热词定制。提供 Python、C++、Java 等客户端示例，可自定义部署流程。测试表明其识别准确率较高，适合离线场景下的语音识别需求。

AiEngineer发布于 2026/3/28更新于 2026/6/1122 浏览

FunASR 离线文件转写服务开发指南（实践篇）

以下内容基于官方文档整理，补充了实践步骤与环境记录，部署环境如下：

# 系统信息
NAME="openEuler"
VERSION="22.03 (LTS-SP3)"
ID="openEuler"
VERSION_ID="22.03"
PRETTY_NAME="openEuler 22.03 (LTS-SP3)"
ANSI_COLOR="0;31"
# docker 版本 Docker version 27.4.0, build bde2b89

1. 是什么

FunASR (Automatic Speech Recognition，自动语音识别) 离线文件转写软件包，提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持 ITN 与用户自定义热词等。服务端集成有 ffmpeg，支持各种音视频格式输入。软件包提供有 html、python、c++、java 与 c#等多种编程语言客户端，用户可以直接使用与进一步开发。

推荐配置为：

配置 1: （X86，计算型），4 核 vCPU，内存 8G，单机可以支持大约 32 路的请求
配置 2: （X86，计算型），16 核 vCPU，内存 32G，单机可以支持大约 64 路的请求
配置 3: （X86，计算型），64 核 vCPU，内存 128G，单机可以支持大约 200 路的请求

2. 快速上手

2.1 docker 安装

官网推荐的安装方式：

# 下载安装脚本
curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh
# 执行安装命令
sudo bash install_docker.sh

2.2 镜像启动

通过下述命令拉取并启动 FunASR 软件包的 docker 镜像：

# 拉取镜像
sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7
# 创建资源文件夹
mkdir -p ./funasr-runtime-resources/models
# 交互式启动容器
sudo docker run -p 10095:10095 -it --privileged=true \
-v $PWD/funasr-runtime-resources/models:/workspace/models \
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

# 容器内的操作
cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
# 如果您想关闭 ssl，增加参数：--certfile 0
# 如果您想使用 SenseVoiceSmall 模型、时间戳、nn 热词模型进行部署，请设置--model-dir 为对应模型：
# iic/SenseVoiceSmall-onnx
# damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx（时间戳）
# damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx（nn 热词）
# 如果您想在服务端加载热词，请在宿主机文件./funasr-runtime-resources/models/hotwords.txt 配置热词（docker 映射地址为/workspace/models/hotwords.txt）:
# 每行一个热词，格式 (热词 权重)：阿里巴巴 20（注：热词理论上无限制，但为了兼顾性能和效果，建议热词长度不超过 10，个数不超过 1k，权重 1~100）
# SenseVoiceSmall-onnx 识别结果中'<|zh|><|NEUTRAL|><|Speech|> '分别为对应的语种、情感、事件信息

root@485ac2db1a1a:/workspace/FunASR/runtime# tail -f log.txt
warn(RuntimeWarning(msg))
2026-03-03 10:45:35,638 - modelscope - INFO - Use user-specified model revision: v2.0.5
Notice: ffmpeg is not installed. torchaudio is used to load audio
If you want to use ffmpeg backend to load audio, please install it by: sudo apt install ffmpeg # ubuntu
# brew install ffmpeg # mac
Downloading [am.mvn]: 100%|██████████|10.9k/10.9k [00:00<00:00, 50.2kB/s]
...
I20260303 11:01:52.311225 56 funasr-wss-server.cpp:516] asr model init finished. listen on port:10095

cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-8k-common-onnx \
--model-dir damo/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst-token8358 \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "../audio/asr_example.wav"

[root@localhost python]# python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "../audio/asr_example.wav"
Namespace(host='127.0.0.1', port=10095, chunk_size=[5, 10, 5], chunk_interval=10, hotword='', audio_in='../audio/asr_example.wav', audio_fs=16000, send_without_sleep=True, thread_num=1, words_max_print=10000, output_dir=None, ssl=1, use_itn=1, mode='offline')
connect to wss://127.0.0.1:10095
pid0_0: demo: 欢迎大家来体验达摩院推出的语音识别模型。
timestamp: [[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]
Exception: sent 1000(OK);then received 1000(OK) end

# 启动时的报错信息
Traceback (most recent call last):
  File "/home/jsgx/funasr/samples/python/funasr_wss_client.py", line 4, in <module>
    import websockets, ssl
ModuleNotFoundError: No module named 'websockets'
# 1. 安装 websockets
pip install websockets
# 2. 安装兼容性较好的指定版本
pip install websockets==13.1

python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline \
--audio_in "../audio/asr_example.wav" --output_dir "./results"

--host 为 FunASR runtime-SDK 服务部署机器 ip，默认为本机 ip（127.0.0.1），如果 client 与服务不在同一台服务器，需要改为部署机器 ip
--port 10095 部署端口号
--mode offline 表示离线文件转写
--audio_in 需要进行转写的音频文件，支持文件路径，文件列表 wav.scp
--thread_num 设置并发发送线程数，默认为 1
--ssl 设置是否开启 ssl 证书校验，默认 1 开启，设置为 0 关闭
--hotword 热词文件，每行一个热词，格式 (热词 权重)：阿里巴巴 20
--use_itn 设置是否使用 itn，默认 1 开启，设置为 0 关闭

# 上点儿强度也测试一下 mp3 格式
python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline \
--audio_in "./whisperTest.mp3" --output_dir "./results"
# 输出结果
Namespace(host='127.0.0.1', port=10095, chunk_size=[5, 10, 5], chunk_interval=10, hotword='', audio_in='./whisperTest.mp3', audio_fs=16000, send_without_sleep=True, thread_num=1, words_max_print=10000, output_dir='./results', ssl=1, use_itn=1, mode='offline')
connect to wss://127.0.0.1:10095
pid0_0: demo: 我呢今年 40 岁，85 年的出生在天津市。父母呢就是普通的工人，没有什么这个过多资源吧，基本上就是家里条件你说多好，也没有说多差，也不至于都是普通家庭吧。大学的时候呢，学文物专业的毕业之后就进了拍卖行工作，就毕业京一直北漂到到今天，我的妻子呢就是我的这个大学同学，然后我们结婚呢也比较晚生，孩子也比较晚，现在孩子也一岁半。
timestamp: [[930,1070],[1070,1390],[1390,1470],[1470,2070],[2150,2290],[2290,2430],[2430,2730],[2730,2880],[2880,3030],[3030,3210],[3210,3630],[3630,4050],[4050,4350],[4350,4569],[4569,4710],[4710,4830],[4830,5130],[5130,5290],[5290,5470],[5470,5590],[5590,5670],[5670,5770],[5770,5850],[5850,5950],[5950,6090],[6090,6189],[6189,6569],[6569,6730],[6730,6850],[6850,6970],[6970,7230],[7230,7390],[7390,7890],[7890,8029],[8029,8189],[8189,8330],[8330,8510],[8510,8910],[8910,9050],[9050,9170],[9170,9290],[9290,9470],[9470,9670],[9670,9830],[9830,10010],[10010,10130],[10130,10570],[10570,10650],[10650,10910],[10910,11010],[11010,11310],[11310,11450],[11450,11550],[11550,11810],[11810,12010],[12010,12150],[12150,12430],[12430,12570],[12570,12690],[12690,12830],[12830,12930],[12930,13190],[13190,13350],[13350,13610],[13610,13710],[13710,13850],[13850,14010],[14010,14110],[14110,14550],[14550,14710],[14710,14890],[14890,15010],[15010,15090],[15090,15190],[15190,15269],[15269,15450],[15450,15550],[15550,15690],[15690,15850],[15850,16209],[16209,16309],[16309,16449],[16449,16550],[16550,16730],[16730,17089],[17089,17289],[17289,17390],[17390,17509],[17509,17589],[17589,17689],[17689,17890],[17890,18029],[18029,18289],[18289,18449],[18449,18570],[18570,18689],[18689,19009],[19009,19169],[19169,19310],[19310,19470],[19470,19650],[19650,19890],[19890,20009],[20009,20329],[20329,20490],[20490,20664],[20840,21000],[21000,21180],[21180,21439],[21439,21539],[21539,21740],[21740,21900],[21900,22039],[22039,22199],[22199,22660],[22660,22800],[22800,22920],[22920,23020],[23020,23520],[23520,23619],[23619,23740],[23740,23860],[23860,23960],[23960,24099],[24099,24340],[24340,24500],[24500,24640],[24640,24800],[24800,24920],[24920,25260],[25260,25420],[25420,25580],[25580,25660],[25660,25760],[25760,25880],[25880,25960],[25960,26119],[26119,26220],[26220,26340],[26340,26460],[26460,26640],[26640,26779],[26779,26880],[26880,27060],[27060,27355]]
Exception: sent 1000(OK);then received 1000(OK) end

我呢今年 40 岁，85 年的，出生在天津市，父母就是普通工人，没有什么这个过多资源吧，基本上就是家里条件，你说多好也没有，说多差也不至于，都是普通家庭吧，大学的时候学文物专业的，毕业之后呢就进了拍卖行工作，就在北京，一直北漂到今天，我的妻子呢就是我的这个大同学，然后我们结婚也比较晚，生孩子也比较晚，现在孩子也一岁半。

./funasr-wss-client --server-ip 127.0.0.1 --port 10095 --wav-path ../audio/asr_example.wav

--server-ip 为 FunASR runtime-SDK 服务部署机器 ip，默认为本机 ip（127.0.0.1），如果 client 与服务不在同一台服务器，需要改为部署机器 ip
--port 10095 部署端口号
--wav-path 需要进行转写的音频文件，支持文件路径
--hotword 热词文件，每行一个热词，格式 (热词 权重)：阿里巴巴 20
--thread-num 设置客户端线程数
--use-itn 设置是否使用 itn，默认 1 开启，设置为 0 关闭

sended data len=177572 Thread: 139725240264256, total_recv=1, on_message ={"is_final":false,"mode":"offline","stamp_sents":[{"end":5195,"punc":"。","start":880,"text_seg":"欢 迎 大 家 来 体 验 达 摩 院 推 出 的 语 音 识 别 模 型","ts_list":[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]}],"text":"欢迎大家来体验达摩院推出的语音识别模型。","timestamp":"[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]","wav_name":"wav_default_id"}
Thread: 139725240264256, close client

I20260303 14:01:36.164183 530 websocket-server.cpp:29] on_tls_init called with hdl: 0x7fb98c010ac0
I20260303 14:01:36.164292 530 websocket-server.cpp:30] using TLS mode: Mozilla Intermediate
[2026-03-03 14:01:36][error] handle_transport_init received error: TLS handshake failed
[2026-03-03 14:01:36][info] asio async_shutdown error: asio.ssl:336462231 (shutdown whilein init (SSL routines, SSL_shutdown))

# 如果您想关闭 ssl，增加参数：--certfile 0
cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--certfile 0 \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

FunasrWsClient --host localhost --port 10095 --audio_in ./asr_example.wav --mode offline

# in ubuntu
apt-get install openjdk-11-jdk

cd funasr/runtime/java
# download java lib
make downjar
# compile
make buildwebsocket
# run client
make runclient

# full command refer to Makefile runclient usage: FunasrWsClient [-h][--port PORT][--host HOST][--audio_in AUDIO_IN][--num_threads NUM_THREADS][--chunk_size CHUNK_SIZE][--chunk_interval CHUNK_INTERVAL][--mode MODE]
Where:
--host<string>(required) server-ip
--port<int>(required) port
--audio_in<string>(required) the wav or pcm file path
--num_threads<int> thread number for test
--mode asr mode, support "offline" "online" "2pass"
example: FunasrWsClient --host localhost --port 8889 --audio_in ./asr_example.wav --num_threads 1 --mode 2pass
result json, example like: {"mode":"offline","text":"欢迎大家来体验达摩院推出的语音识别模型","wav_name":"javatest"}

cd /workspace/FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--certfile ../../../ssl_key/server.crt \
--keyfile ../../../ssl_key/server.key \
--hotword ../../hotwords.txt > log.txt 2>&1 &

--download-model-dir 模型下载地址，通过设置 model ID 从 Modelscope 下载模型
--model-dir modelscope model ID 或者 本地模型路径
--vad-dir modelscope model ID 或者 本地模型路径
--punc-dir modelscope model ID 或者 本地模型路径
--lm-dir modelscope model ID 或者 本地模型路径
--itn-dir modelscope model ID 或者 本地模型路径
--port 服务端监听的端口号，默认为 10095
--decoder-thread-num 服务端线程池个数 (支持的最大并发路数)，脚本会根据服务器线程数自动配置 decoder-thread-num、io-thread-num
--io-thread-num 服务端启动的 IO 线程数
--model-thread-num 每路识别的内部线程数 (控制 ONNX 模型的并行)，默认为 1，其中建议 decoder-thread-num*model-thread-num 等于总线程数
--certfile ssl 的证书文件，默认为：../../../ssl_key/server.crt，如果需要关闭 ssl，参数设置为 0
--keyfile ssl 的密钥文件，默认为：../../../ssl_key/server.key
--hotword 热词文件路径，每行一个热词，格式：热词 权重 (例如：阿里巴巴 20)，如果客户端提供热词，则与客户端提供的热词合并一起使用，服务端热词全局生效，客户端热词只针对对应客户端生效。

# 查看 funasr-wss-server 对应的 PID
ps-x | grep funasr-wss-server
kill -9 PID

# 例如替换 ASR 模型为 damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx，则如下设置参数 --model-dir --model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
# 设置端口号 --port --port<port number>
# 设置服务端启动的推理线程数 --decoder-thread-num --decoder-thread-num <decoder thread num>
# 设置服务端启动的 IO 线程数 --io-thread-num --io-thread-num <io thread num>
# 关闭 SSL 证书 --certfile 0

// VAD 模型的使用分为 FsmnVadInit 和 FsmnVadInfer 两个步骤：
FUNASR_HANDLE vad_hanlde=FsmnVadInit(model_path, thread_num); // 其中：model_path 包含"model-dir"、"quantize"，thread_num 为 onnx 线程数；
FUNASR_RESULT result=FsmnVadInfer(vad_hanlde, wav_file.c_str(), NULL, 16000); // 其中：vad_hanlde 为 FunOfflineInit 返回值，wav_file 为音频路径，sampling_rate 为采样率 (默认 16k)

// ASR 模型的使用分为 FunOfflineInit 和 FunOfflineInfer 两个步骤：
FUNASR_HANDLE asr_hanlde=FunOfflineInit(model_path, thread_num); // 其中：model_path 包含"model-dir"、"quantize"，thread_num 为 onnx 线程数；
FUNASR_RESULT result=FunOfflineInfer(asr_hanlde, wav_file.c_str(), RASR_NONE, NULL, 16000); // 其中：asr_hanlde 为 FunOfflineInit 返回值，wav_file 为音频路径，sampling_rate 为采样率 (默认 16k)

// PUNC 模型的使用分为 CTTransformerInit 和 CTTransformerInfer 两个步骤：
FUNASR_HANDLE punc_hanlde=CTTransformerInit(model_path, thread_num); // 其中：model_path 包含"model-dir"、"quantize"，thread_num 为 onnx 线程数；
FUNASR_RESULT result=CTTransformerInfer(punc_hanlde, txt_str.c_str(), RASR_NONE, NULL); // 其中：punc_hanlde 为 CTTransformerInit 返回值，txt_str 为文本

FunASR 离线文件转写服务开发指南（实践篇）

FunASR 离线文件转写服务开发指南（实践篇）

1. 是什么

2. 快速上手

2.1 docker 安装

2.2 镜像启动

更多推荐文章

相关免费在线工具

2.3 服务端启动

2.4 客户端测试与使用

3. 客户端用法详解

3.1 python-client

3.2 cpp-client

3.3 Html 网页版

3.4 Java-client

3.4.1 Building for Linux/Unix

4. 服务端用法详解

4.1 启动 FunASR 服务

4.2 关闭 FunASR 服务

4.3 修改模型及其他参数

5. 如何定制服务部署

更多推荐文章

相关免费在线工具

FunASR 离线文件转写服务开发指南（实践篇）

FunASR 离线文件转写服务开发指南（实践篇）

1. 是什么

2. 快速上手

2.1 docker 安装

2.2 镜像启动

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 服务端启动

2.4 客户端测试与使用

3. 客户端用法详解

3.1 python-client

3.2 cpp-client

3.3 Html 网页版

3.4 Java-client

3.4.1 Building for Linux/Unix

4. 服务端用法详解

4.1 启动 FunASR 服务

4.2 关闭 FunASR 服务

4.3 修改模型及其他参数

5. 如何定制服务部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具