FunASR 语音识别 WebUI 本地部署与使用详解 | 极客日志

PythonAI算法

FunASR 语音识别 WebUI 本地部署与使用详解

基于 FunASR 的语音识别 WebUI 支持 Docker 本地部署，兼容 GPU 与 CPU 环境。系统提供音频上传、实时录音、自动标点及多格式导出功能，确保数据隐私安全。文档涵盖环境准备、部署步骤、界面操作及常见问题解决，适用于会议转写、字幕生成等场景。

雾岛听风发布于 2026/4/7更新于 2026/5/2720 浏览

FunASR 语音识别 WebUI 本地部署与使用详解

1. 引言：为什么你需要一个本地语音识别系统？

会议录音整理、视频字幕生成、采访素材转写等场景，人工听写费时费力且易出错。高效、准确的语音识别工具尤为重要。

本文介绍基于 FunASR 和 speech_ngram_lm_zh-cn 模型构建的本地化语音识别镜像。支持多种音频格式上传、浏览器实时录音、自动标点恢复、时间戳输出，并能一键导出文本、JSON 和 SRT 字幕文件。

该系统无需复杂配置，支持 Docker 容器化部署，数据在本地处理，保障隐私安全。适用于内容创作者、教育工作者、会议记录员及 AI 技术爱好者。

2. 镜像简介与核心能力

2.1 镜像基本信息

镜像名称：FunASR 语音识别基于 speech_ngram_lm_zh-cn 二次开发构建
核心技术：FunASR + Paraformer/SenseVoice 模型 + N-gram 语言模型
部署方式：Docker 容器化部署（支持 GPU/CPU）
访问方式：Web 浏览器界面操作，无需编程基础
适用人群：零代码用户、开发者、企业应用集成者

2.2 核心功能亮点

功能	说明
🎤 多种输入方式	支持上传音频文件 + 浏览器实时录音
🔊 多格式支持	WAV、MP3、M4A、FLAC、OGG、PCM 等主流格式
🧠 高精度识别	基于 Paraformer-Large 模型，中文识别准确率高
⚡ 快速响应	可选 SenseVoice-Small 模型，适合低延迟场景
✍ 自动加标点	启用 PUNC 模块后，结果自带句号、逗号等
🕒 输出时间戳	支持按词或句子输出起止时间，便于后期编辑
多格式导出	TXT、JSON、SRT 三种结果格式一键下载
本地运行	数据不出内网，隐私安全有保障

该镜像集成了完整的语音识别流水线，包括 VAD（语音活动检测）、ASR（语音转文字）、PUNC（标点恢复）和语言模型优化，所有模块已预装、预配置。

3. 快速部署指南

3.1 环境准备

请确保设备满足以下条件：

操作系统：Linux / Windows（WSL2）/ macOS
Python 版本：3.8 或以上（建议使用 Conda 管理环境）
Docker：已安装 Docker 和 Docker Compose
GPU 支持（可选）：
- NVIDIA 显卡
- 已安装 CUDA 驱动
- 安装 nvidia-docker2

如果没有 GPU，也可以使用 CPU 模式运行，只是识别速度会慢一些。

3.2 部署步骤（Docker 方式）

步骤 1：拉取镜像

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

mkdir -p ./funasr-runtime-resources/models

docker run -p 7860:7860 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6 \ bash -c "cd /workspace && python app.main.py"

Running on local URL: http://localhost:7860

http://localhost:7860

http://<你的服务器 IP>:7860

按钮	文件格式	用途
下载文本	`.txt`	纯文本，适合复制粘贴、导入文档
下载 JSON	`.json`	结构化数据，可用于程序解析
下载 SRT	`.srt`	视频字幕文件，兼容大多数播放器

outputs/outputs_YYYYMMDDHHMMSS/

outputs/outputs_20260104123456/
├── audio_001.wav
├── result_001.json
├── text_001.txt
└── subtitle_001.srt

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

1 00:00:00,000 --> 00:00:02,500 你好
2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

[001] 0.000s - 0.500s (时长：0.500s)
[002] 0.500s - 2.500s (时长：2.000s)
[003] 2.500s - 5.000s (时长：2.500s)

FunASR 语音识别 WebUI 本地部署与使用详解

FunASR 语音识别 WebUI 本地部署与使用详解

1. 引言：为什么你需要一个本地语音识别系统？

2. 镜像简介与核心能力

2.1 镜像基本信息

2.2 核心功能亮点

3. 快速部署指南

3.1 环境准备

3.2 部署步骤（Docker 方式）

步骤 1：拉取镜像

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 2：创建模型存储目录

步骤 3：启动容器

步骤 4：等待服务启动

4. WebUI 使用全流程详解

4.1 访问地址

4.2 界面功能分区解析

左侧控制面板

模型选择

设备选择

功能开关

操作按钮

4.3 使用方式一：上传音频文件识别

步骤 1：上传音频

步骤 2：设置识别参数

步骤 3：开始识别

4.4 使用方式二：浏览器实时录音

步骤 1：授权麦克风权限

步骤 2：开始录音

步骤 3：开始识别

5. 结果导出与文件管理

5.1 导出按钮说明

5.2 文件存储路径

6. 实际效果展示与案例分析

6.1 纯文本输出示例

6.2 SRT 字幕输出示例

6.3 时间戳信息示例

7. 常见问题与解决方案

7.1 识别结果不准确怎么办？

7.2 识别速度太慢？

7.3 无法上传音频文件？

7.4 录音没有声音？

7.5 如何提高识别准确率？

8. 总结：打造属于你的私人语音助手

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具