科哥开发的FunASR语音识别镜像，支持WebUI与实时录音

优质文章学习记录

10 Apr 2026 — 11 min read

科哥开发的FunASR语音识别镜像，支持WebUI与实时录音

1. 引言

1.1 语音识别技术背景

随着人工智能在语音处理领域的持续突破，自动语音识别（Automatic Speech Recognition, ASR）已成为智能交互系统的核心组件。从智能客服、会议记录到视频字幕生成，ASR 技术正广泛应用于各类实际场景中。

在众多开源 ASR 工具包中，FunASR 由阿里达摩院推出，是一个功能全面、模块化设计的语音识别工具集，支持在线流式识别、离线批量转写、语音活动检测（VAD）、标点恢复、语言模型融合等多种高级功能。其灵活性和可扩展性使其成为中文语音识别领域的重要选择之一。

1.2 镜像简介与核心价值

本文介绍的是由开发者“科哥”基于 FunASR + speech_ngram_lm_zh-cn 模型二次开发构建的语音识别镜像：

镜像名称： FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥
核心特性：内置 Paraformer-Large 和 SenseVoice-Small 双模型支持 WebUI 图形界面操作支持浏览器端实时录音识别提供多格式结果导出（TXT/JSON/SRT）自动时间戳标注与标点恢复

该镜像极大降低了 FunASR 的使用门槛，无需复杂命令行配置即可完成语音识别任务，特别适合科研测试、教育演示及轻量级生产部署。

2. 系统架构与关键技术

2.1 整体架构设计

本镜像采用分层架构设计，整合了底层推理引擎、中间件服务与前端交互层：

+---------------------+ | WebUI 前端 | ← 浏览器访问 (http://localhost:7860) +----------+----------+ | +----------v----------+ | Python 后端服务 | ← Flask + Gradio 构建 UI 接口 +----------+----------+ | +----------v----------+ | FunASR 推理引擎 | ← 调用 ONNX 模型进行 ASR/VAD/PUNC +----------+----------+ | +----------v----------+ | 模型文件与资源管理 | ← 包括 paraformer-large、ngram-lm、punc 等 +---------------------+

整个系统通过 Docker 容器封装，实现环境隔离与一键部署。

2.2 核心模型解析

2.2.1 主识别模型：Paraformer-Large

类型： 非自回归端到端模型
优势： 高准确率，尤其适用于长句和专业术语识别
输入要求： 16kHz 单声道音频
语言支持： 中文为主，兼容多语种混合识别

相比传统自回归模型，Paraformer 在保持高精度的同时显著提升解码速度。

2.2.2 轻量模型：SenseVoice-Small

定位： 快速响应场景下的低延迟识别
适用场景： 实时对话、移动端应用预览
特点： 模型体积小，CPU 上也可流畅运行

用户可根据性能需求在 WebUI 中自由切换模型。

2.2.3 辅助模块集成

模块	功能说明
VAD（语音活动检测）	自动切分静音段，提取有效语音片段
PUNC（标点恢复）	基于上下文添加逗号、句号等标点符号
N-Gram LM	使用 `speech_ngram_lm_zh-cn` 提升语言连贯性
时间戳输出	输出每个词或句子的时间区间

这些模块协同工作，使最终输出更接近自然语言表达。

3. 快速部署与使用流程

3.1 部署准备

硬件建议：

GPU：NVIDIA 显卡（推荐 RTX 3060 及以上），用于 CUDA 加速
CPU：Intel i5 或同等性能以上
内存：≥ 8GB RAM
存储：≥ 20GB 可用空间（含模型缓存）

软件依赖：

Docker ≥ 20.10
NVIDIA Container Toolkit（如使用 GPU）

3.2 启动镜像服务

# 拉取镜像（假设已发布至公共仓库） docker pull registry.example.com/kge/funasr-webui:speech_ngram_lm_zh-cn # 创建模型存储目录 mkdir -p ./models # 运行容器并映射端口 docker run -d \ --name funasr-webui \ -p 7860:7860 \ -v $PWD/models:/workspace/models \ --gpus all \ # 若无 GPU，请移除此行 registry.example.com/kge/funasr-webui:speech_ngram_lm_zh-cn

注：若未启用 GPU，则设备选择将默认为 CPU 模式。

3.3 访问 WebUI 界面

启动成功后，在浏览器中打开：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

页面加载完成后即可进入主界面。

4. WebUI 功能详解

4.1 界面布局概览

WebUI 分为左右两大区域：

左侧控制面板： 参数设置与操作按钮
右侧功能区： 音频上传、录音、结果显示

顶部显示标题信息：“FunASR 语音识别 WebUI”，底部保留版权说明。

4.2 控制面板功能说明

4.2.1 模型选择

提供两种识别模型切换：

Paraformer-Large（默认）：高精度模式，适合对准确性要求高的场景
SenseVoice-Small：快速响应模式，适合实时交互

4.2.2 设备选择

CUDA（GPU）：利用显卡加速推理，大幅缩短处理时间
CPU：通用模式，适用于无独立显卡设备

系统会根据硬件自动推荐最优选项。

4.2.3 功能开关

开关项	作用
启用标点恢复 (PUNC)	自动为文本添加句号、逗号等
启用语音活动检测 (VAD)	过滤静音段，仅识别有声部分
输出时间戳	在结果中标注每句话的起止时间

建议开启全部三项以获得完整结构化输出。

4.2.4 操作按钮

加载模型：手动触发模型加载或重新加载
刷新状态：更新当前模型加载情况图标（✓ / ✗）

5. 使用方式详解

5.1 方式一：上传音频文件识别

步骤 1：准备音频文件

支持格式包括：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐参数：

采样率：16kHz
位深：16bit
声道：单声道（mono）

高质量音频有助于提升识别准确率。

步骤 2：上传与配置

点击 “上传音频” 按钮选择本地文件
设置识别参数：
- 批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒
- 识别语言：
  - auto（自动检测，推荐）
  - zh（中文）
  - en（英文）
  - yue（粤语）
  - ja（日语）
  - ko（韩语）

步骤 3：开始识别

点击 “开始识别” 按钮，等待处理完成。进度条将实时显示处理状态。

步骤 4：查看结果

识别结果分为三个标签页展示：

标签页	内容说明
文本结果	清洁后的纯文本，可直接复制使用
详细信息	JSON 格式，包含置信度、时间戳等元数据
时间戳	列表形式展示每个片段的开始/结束时间

示例输出：

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

5.2 方式二：浏览器实时录音识别

步骤 1：授权麦克风权限

点击 “麦克风录音” 按钮，浏览器会弹出权限请求，点击 “允许”。

注意：请确保系统麦克风正常工作，并检查是否被其他程序占用。

步骤 2：录制语音

录音过程中可看到波形图反馈
点击 “停止录音” 结束录制

录音内容将自动保存为临时 WAV 文件供后续识别。

步骤 3：执行识别

与上传文件相同，点击 “开始识别” 即可处理录音内容。

步骤 4：获取结果

结果展示方式与上传模式一致，支持文本、JSON 和 SRT 字幕下载。

6. 结果导出与高级功能

6.1 多格式结果下载

识别完成后，可通过以下按钮导出不同格式的结果：

下载按钮	文件格式	用途
下载文本	.txt	简单文本记录
下载 JSON	.json	开发对接、数据分析
下载 SRT	.srt	视频字幕嵌入

所有文件统一保存在：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

每次识别生成独立目录，避免覆盖冲突。

6.2 高级参数调优

批量大小调整

范围： 60 ~ 600 秒
建议：
- 小于 5 分钟音频：保持默认 300 秒
- 超长录音：分段处理或设为 600 秒

过大的批次可能导致内存溢出，尤其是在 CPU 模式下。

语言识别策略

场景	推荐设置
全中文内容	`zh`
英文讲座	`en`
中英混合对话	`auto`
方言或特定语种	选择对应语言（如 `yue`）

正确设定语言可显著提高识别准确率。

时间戳应用场景

启用时间戳后可用于：

视频剪辑中的语音定位
会议纪要中发言时段标记
教学材料中知识点索引

7. 常见问题与优化建议

7.1 识别不准怎么办？

可能原因与解决方案：

音频质量差
- 解决方案：使用降噪软件预处理（如 Audacity）
背景噪音大
- 建议：关闭风扇、空调，使用指向性麦克风
发音不清或语速过快
- 建议：适当放慢语速，清晰吐字
语言设置错误
- 检查是否误选为非目标语言

7.2 识别速度慢如何优化？

问题	诊断方法	解决方案
使用 CPU 模式	查看设备选择是否为 CUDA	更换为 GPU 运行
模型过大	当前是否使用 Paraformer-Large	切换至 SenseVoice-Small
音频太长	是否一次性处理超过 10 分钟	分段上传处理

提示：GPU 加速可使识别速度提升 3~5 倍。

7.3 无法上传文件？

常见原因：

文件格式不支持 → 转换为 MP3/WAV
文件过大（>100MB）→ 分割或压缩
浏览器兼容性问题 → 尝试 Chrome/Firefox

7.4 录音无声？

排查步骤：

浏览器是否允许麦克风权限？
系统声音设置中麦克风是否启用？
麦克风硬件是否连接正常？

可在系统自带录音工具中先行测试。

8. 总结

8.1 技术价值总结

科哥开发的这款 FunASR 语音识别镜像，基于 speech_ngram_lm_zh-cn 模型进行了深度优化与二次开发，成功实现了以下关键能力：

零代码部署： 通过 Docker 一键运行，降低技术门槛
图形化操作： WebUI 界面友好，支持拖拽上传与实时录音
多模型支持： 平衡精度与速度，满足多样化需求
结构化输出： 支持时间戳、标点恢复、SRT 字幕导出
工程实用性： 适用于会议记录、教学辅助、媒体制作等多个领域

相较于原始 FunASR 的命令行模式，该镜像极大提升了易用性和落地效率。

8.2 最佳实践建议

优先使用 GPU 模式：充分发挥 CUDA 加速优势，提升处理效率
合理选择模型：高精度场景用 Paraformer，实时交互用 SenseVoice
规范音频输入：统一使用 16kHz 单声道 WAV/MP3 格式
定期备份输出目录：防止重要识别结果丢失
关注更新日志：开发者承诺持续维护，建议定期拉取新版镜像

8.3 展望未来

随着大模型与语音技术的深度融合，未来版本有望引入：

大语言模型（LLM）后处理增强语义理解
多说话人分离（Speaker Diarization）功能
实时翻译与双语字幕生成
更丰富的 API 接口支持外部系统集成

这将进一步拓展其在企业级应用中的潜力。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。