FunASR 语音识别 WebUI 本地部署与使用详解
1. 引言:为什么你需要一个本地语音识别系统?
会议录音整理、视频字幕生成、采访素材转写等场景,人工听写费时费力且易出错。高效、准确的语音识别工具尤为重要。
本文介绍基于 FunASR 和 speech_ngram_lm_zh-cn 模型构建的本地化语音识别镜像。支持多种音频格式上传、浏览器实时录音、自动标点恢复、时间戳输出,并能一键导出文本、JSON 和 SRT 字幕文件。
该系统无需复杂配置,支持 Docker 容器化部署,数据在本地处理,保障隐私安全。适用于内容创作者、教育工作者、会议记录员及 AI 技术爱好者。
2. 镜像简介与核心能力
2.1 镜像基本信息
- 镜像名称:FunASR 语音识别基于 speech_ngram_lm_zh-cn 二次开发构建
- 核心技术:FunASR + Paraformer/SenseVoice 模型 + N-gram 语言模型
- 部署方式:Docker 容器化部署(支持 GPU/CPU)
- 访问方式:Web 浏览器界面操作,无需编程基础
- 适用人群:零代码用户、开发者、企业应用集成者
2.2 核心功能亮点
| 功能 | 说明 |
|---|---|
| 🎤 多种输入方式 | 支持上传音频文件 + 浏览器实时录音 |
| 🔊 多格式支持 | WAV、MP3、M4A、FLAC、OGG、PCM 等主流格式 |
| 🧠 高精度识别 | 基于 Paraformer-Large 模型,中文识别准确率高 |
| ⚡ 快速响应 | 可选 SenseVoice-Small 模型,适合低延迟场景 |
| ✍ 自动加标点 | 启用 PUNC 模块后,结果自带句号、逗号等 |
| 🕒 输出时间戳 | 支持按词或句子输出起止时间,便于后期编辑 |
| 多格式导出 | TXT、JSON、SRT 三种结果格式一键下载 |
| 本地运行 | 数据不出内网,隐私安全有保障 |
该镜像集成了完整的语音识别流水线,包括 VAD(语音活动检测)、ASR(语音转文字)、PUNC(标点恢复)和语言模型优化,所有模块已预装、预配置。
3. 快速部署指南
3.1 环境准备
请确保设备满足以下条件:
- 操作系统:Linux / Windows(WSL2)/ macOS
- Python 版本:3.8 或以上(建议使用 Conda 管理环境)
- Docker:已安装 Docker 和 Docker Compose
- GPU 支持(可选):
- NVIDIA 显卡
- 已安装 CUDA 驱动
- 安装 nvidia-docker2
如果没有 GPU,也可以使用 CPU 模式运行,只是识别速度会慢一些。
3.2 部署步骤(Docker 方式)
步骤 1:拉取镜像
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6

