快速部署语音识别WebUI|FunASR + speech_ngram_lm_zh-cn 镜像详解

快速部署语音识别WebUI|FunASR + speech_ngram_lm_zh-cn 镜像详解

1. 引言:为什么你需要一个本地语音识别系统?

你有没有遇到过这样的场景:会议录音要整理成文字、视频内容需要生成字幕、采访素材得快速转写?靠人工听写不仅费时费力,还容易出错。这时候,一个高效、准确的语音识别工具就显得尤为重要。

今天我们要介绍的,是一个开箱即用的中文语音识别 WebUI 系统——基于 FunASRspeech_ngram_lm_zh-cn 模型构建的本地化语音识别镜像。它由开发者“科哥”二次开发并开源,支持多种音频格式上传、浏览器实时录音、自动标点恢复、时间戳输出,并能一键导出文本、JSON 和 SRT 字幕文件。

最重要的是:无需复杂配置,一键启动,永久免费使用

无论你是内容创作者、教育工作者、会议记录员,还是 AI 技术爱好者,这套系统都能帮你把“声音”高效转化为“文字”,真正实现“说即所得”。


2. 镜像简介与核心能力

2.1 镜像基本信息

  • 镜像名称:FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥
  • 核心技术:FunASR + Paraformer/SenseVoice 模型 + N-gram 语言模型(speech_ngram_lm_zh-cn)
  • 部署方式:Docker 容器化部署(支持 GPU/CPU)
  • 访问方式:Web 浏览器界面操作,无需编程基础
  • 适用人群:零代码用户、开发者、企业应用集成者

2.2 核心功能亮点

功能说明
🎤 多种输入方式支持上传音频文件 + 浏览器实时录音
🔊 多格式支持WAV、MP3、M4A、FLAC、OGG、PCM 等主流格式
🧠 高精度识别基于 Paraformer-Large 模型,中文识别准确率高
⚡ 快速响应可选 SenseVoice-Small 模型,适合低延迟场景
✍ 自动加标点启用 PUNC 模块后,结果自带句号、逗号等
🕒 输出时间戳支持按词或句子输出起止时间,便于后期编辑
多格式导出TXT、JSON、SRT 三种结果格式一键下载
本地运行数据不出内网,隐私安全有保障

这个镜像最大的优势在于:集成了完整的语音识别流水线,包括 VAD(语音活动检测)、ASR(语音转文字)、PUNC(标点恢复)和语言模型优化,所有模块都已预装、预配置,省去了繁琐的环境搭建过程。


3. 快速部署指南

3.1 环境准备

在开始之前,请确保你的设备满足以下条件:

  • 操作系统:Linux / Windows(WSL2)/ macOS
  • Python 版本:3.8 或以上(建议使用 Conda 管理环境)
  • Docker:已安装 Docker 和 Docker Compose
  • GPU 支持(可选)
    • NVIDIA 显卡
    • 已安装 CUDA 驱动
    • 安装 nvidia-docker2
如果没有 GPU,也可以使用 CPU 模式运行,只是识别速度会慢一些。

3.2 部署步骤(Docker 方式)

步骤 1:拉取镜像
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6 

如果你使用的是 CPU 版本:

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 
步骤 2:创建模型存储目录
mkdir -p ./funasr-runtime-resources/models 

该目录将用于缓存下载的模型文件,避免重复下载。

步骤 3:启动容器
docker run -p 7860:7860 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6 \ bash -c "cd /workspace && python app.main.py" 
注意:端口映射为 7860,这是 WebUI 的默认访问端口。
步骤 4:等待服务启动

首次运行时,系统会自动下载所需模型(如 Paraformer-Large、PUNC、VAD、N-gram LM),耗时约 5–10 分钟(取决于网络速度)。完成后你会看到类似提示:

Running on local URL: http://localhost:7860 

此时服务已就绪!


4. WebUI 使用全流程详解

4.1 访问地址

服务启动后,在浏览器中打开:

http://localhost:7860 

如果你是从远程服务器部署的,替换 localhost 为实际 IP 地址:

http://<你的服务器IP>:7860 

页面加载成功后,你会看到一个简洁美观的紫蓝渐变主题界面。


4.2 界面功能分区解析

整个 WebUI 分为两个主要区域:左侧控制面板 和 右侧识别区域。

左侧控制面板
模型选择
  • Paraformer-Large:大模型,识别精度更高,适合对准确性要求高的场景。
  • SenseVoice-Small:小模型,响应更快,适合实时交互或资源受限环境。
推荐日常使用 Paraformer-Large;若追求速度可切换至 Small。
设备选择
  • CUDA:启用 GPU 加速(推荐有显卡时使用)
  • CPU:纯 CPU 运行(无显卡可用)

系统通常会自动检测是否有可用 GPU 并默认选中 CUDA。

功能开关
  • 启用标点恢复 (PUNC):开启后自动为识别结果添加句号、逗号等标点符号。
  • 启用语音活动检测 (VAD):自动切分长音频中的有效语音段,跳过静音部分。
  • 输出时间戳:在结果中显示每个句子的时间范围,方便定位。
操作按钮
  • 加载模型:手动触发模型加载或重新加载。
  • 刷新:更新当前状态信息。

4.3 使用方式一:上传音频文件识别

这是最常用的使用方式,适用于已有录音文件的场景。

步骤 1:上传音频

点击 “ASR 语音识别” 区域的 “上传音频” 按钮,选择本地音频文件。

支持格式包括:

  • .wav(推荐,16kHz 采样率最佳)
  • .mp3
  • .m4a
  • .flac
  • .ogg
  • .pcm
建议音频采样率为 16kHz,单声道,这样识别效果最好。
步骤 2:设置识别参数
  • 批量大小(秒):默认 300 秒(5 分钟),最大支持 600 秒(10 分钟)。对于更长音频建议分段处理。
  • 识别语言
    • auto:自动检测(推荐)
    • zh:强制中文识别
    • en:英文
    • yue:粤语
    • ja:日语
    • ko:韩语
中文为主的内容建议选择 zhauto
步骤 3:开始识别

点击 “开始识别” 按钮,系统将自动进行语音检测、分割、识别和标点恢复。

识别进度会在页面下方实时显示,完成后出现三个标签页结果:

  • 文本结果:纯净的文字内容,可直接复制粘贴使用。
  • 详细信息:JSON 格式完整数据,包含置信度、时间戳等元信息。
  • 时间戳:列出每句话的开始/结束时间,格式为 [序号] 开始时间 - 结束时间 (时长)

4.4 使用方式二:浏览器实时录音

适合现场发言、即兴演讲、访谈等需要即时转写的场景。

步骤 1:授权麦克风权限

点击 “麦克风录音” 按钮,浏览器会弹出权限请求,点击 “允许”

请确保系统麦克风正常工作,且未被其他程序占用。
步骤 2:开始录音

点击后进入录音状态,对着麦克风说话即可。再次点击 “停止录音” 结束录制。

录音结束后,音频会自动上传至服务端。

步骤 3:开始识别

与上传文件流程一致,点击 “开始识别” 即可获取结果。


5. 结果导出与文件管理

识别完成后,你可以将结果以多种格式保存到本地。

5.1 导出按钮说明

按钮文件格式用途
下载文本.txt纯文本,适合复制粘贴、导入文档
下载 JSON.json结构化数据,可用于程序解析
下载 SRT.srt视频字幕文件,兼容大多数播放器

5.2 文件存储路径

所有输出文件统一保存在容器内的:

outputs/outputs_YYYYMMDDHHMMSS/ 

例如:

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt 

每次识别都会创建一个带时间戳的新目录,防止文件覆盖。

若需持久化保存,建议将 outputs 目录也挂载到宿主机。

6. 实际效果展示与案例分析

6.1 纯文本输出示例

输入语音:“你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。”

输出结果:

你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。 

自动添加了句号
语义连贯,无错别字
专业术语识别准确

6.2 SRT 字幕输出示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统 

这种格式可以直接拖入剪映、Premiere、Final Cut Pro 等视频编辑软件,自动生成字幕轨道,极大提升剪辑效率。

6.3 时间戳信息示例

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s) 

可用于精准定位某句话出现在音频中的位置,特别适合做课程笔记、会议纪要重点标注。


7. 常见问题与解决方案

7.1 识别结果不准确怎么办?

可能原因

  • 音频质量差(背景噪音大、人声模糊)
  • 语言设置错误(如英文内容误设为中文)
  • 模型未完全加载

解决方法

  1. 尽量使用清晰录音,提前做降噪处理;
  2. 正确选择识别语言,混合语言可尝试 auto
  3. 点击“加载模型”重新初始化模型。

7.2 识别速度太慢?

常见原因

  • 使用了 CPU 模式而非 GPU
  • 音频过长导致处理时间增加
  • 模型较大(如 Paraformer-Large)

优化建议

  1. 确保使用 CUDA 模式运行;
  2. 将长音频拆分为 5 分钟以内片段;
  3. 切换为 SenseVoice-Small 模型测试速度差异。

7.3 无法上传音频文件?

检查项

  • 文件是否超过 100MB?
  • 是否为受支持格式(优先使用 MP3/WAV)?
  • 浏览器是否阻止了文件上传?
提示:某些老旧浏览器可能存在兼容性问题,建议使用 Chrome 或 Edge。

7.4 录音没有声音?

排查步骤

  1. 浏览器是否授予麦克风权限?
  2. 系统设置中麦克风是否启用?
  3. 麦克风硬件是否正常?

可在系统自带录音工具中先测试录音功能。


7.5 如何提高识别准确率?

实用技巧汇总

  • 使用 16kHz 采样率的音频
  • 减少背景噪音(可用 Audacity 等工具降噪)
  • 发音清晰,避免过快语速
  • 在安静环境中录音
  • 启用 VAD 和 PUNC 模块
  • 选择合适的语言模式

8. 总结:打造属于你的私人语音助手

通过本文介绍的 FunASR + speech_ngram_lm_zh-cn 镜像,你已经可以轻松搭建一个功能完整、操作简单的本地语音识别系统。它不仅具备高精度的中文识别能力,还提供了友好的 Web 界面、多格式导出、实时录音等实用功能,真正做到了“零门槛上手”。

更重要的是,所有数据都在本地处理,不经过任何第三方服务器,彻底解决了隐私泄露的风险。无论是个人知识管理、教学辅助,还是企业内部会议记录,这套方案都非常适合作为基础组件嵌入日常工作流。

未来你还可以进一步扩展它的能力:

  • 接入 Fay 数字人,实现语音对话闭环
  • 与 Notion、Obsidian 联动,自动生成会议纪要
  • 集成到视频剪辑流程中,一键生成双语字幕

技术的价值在于解放人力。现在,只需一次部署,就能让你从枯燥的听写工作中解脱出来,把更多精力投入到创造性思考中去。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

算力基建入门-AI时代,算力为何是数字底座

算力基建入门-AI时代,算力为何是数字底座

算力基建入门:AI时代,算力为何是数字底座 📚 本章学习目标:深入理解AI时代,算力为何是数字底座的核心概念与实践方法,掌握关键技术要点,了解实际应用场景与最佳实践。本文属于《云原生、云边端一体化与算力基建:AI时代基础设施革命教程》云原生入门篇(第一阶段)。 在上一章,我们学习了"云边端一体化解析:什么是云边端,为何能成为AI基础设施核心"。本章,我们将深入探讨AI时代,算力为何是数字底座,这是云原生与AI基础设施学习中非常重要的一环。 一、核心概念与背景 1.1 什么是AI时代,算力为何是数字底座 💡 基本定义: AI时代,算力为何是数字底座是云原生与AI基础设施领域的核心知识点之一。掌握这项技能对于提升云原生架构设计能力和AI应用落地效果至关重要。 # 云原生基础命令示例# Docker容器操作docker run -d--name myapp nginx:latest dockerpsdocker logs myapp # Kubernetes基础操作 kubectl get pods -n

GitHub Copilot学生认证:AI编程助手的免费学习利器

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容: 创建一个Python脚本,使用GitHub API自动验证学生身份并申请GitHub Copilot学生认证。脚本需要包含以下功能:1. 通过OAuth验证GitHub账号;2. 自动检测学生邮箱或上传学生证明;3. 提交认证申请并返回结果。使用requests库处理API请求,并添加错误处理和状态提示。 1. 点击'项目生成'按钮,等待项目生成完整后预览效果 最近在学编程时发现GitHub Copilot这个AI编程助手特别实用,但学生党预算有限,幸好官方提供了免费的学生认证。今天就来分享下如何用Python脚本自动化完成学生认证的全过程,顺便聊聊AI辅助开发的真实体验。 1. 准备工作 首先需要注册GitHub账号,建议使用学校邮箱(带.edu后缀的)。如果学校没有提供专属邮箱,准备好学生证或在校证明的扫描件。Python环境建议3.7以上版本,主要用到的库是requests和json。 2.

ComfyUI Photoshop插件完整教程:5步实现AI绘画工作流

ComfyUI Photoshop插件完整教程:5步实现AI绘画工作流 【免费下载链接】Comfy-Photoshop-SDDownload this extension via the ComfyUI manager to establish a connection between ComfyUI and the Auto-Photoshop-SD plugin in Photoshop. https://github.com/AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin 项目地址: https://gitcode.com/gh_mirrors/co/Comfy-Photoshop-SD 想要在熟悉的Photoshop环境中直接使用AI绘画功能吗?Comfy-Photoshop-SD插件正是你需要的解决方案!这个强大的工具将ComfyUI的AI能力无缝集成到Photoshop中,让你在创作过程中享受智能绘画的便利。无论你是设计师、插画师还是摄影爱好者,都能通过这个插件大幅提升工作效率。 🎯 准备工作与环境要求

中文GPT2文本生成完整教程:从零打造专业级AI写作系统

中文GPT2文本生成完整教程:从零打造专业级AI写作系统 【免费下载链接】GPT2-ChineseChinese version of GPT2 training code, using BERT tokenizer. 项目地址: https://gitcode.com/gh_mirrors/gp/GPT2-Chinese GPT2-Chinese是基于BERT分词器的中文GPT2训练代码实现,能够帮助开发者快速构建专业级AI写作系统。本教程将从环境搭建到文本生成,全面讲解如何利用该项目实现高质量中文文本创作。 一、项目核心功能与优势 GPT2-Chinese作为专为中文优化的文本生成模型,具备三大核心优势: * BERT分词器支持:采用tokenizations/tokenization_bert.py实现精准中文分词 * 多场景适配:支持诗歌、散文、小说等多种文体生成 * 轻量化配置:提供config/model_config_small.json等不同规模模型配置 1.1 生成效果展示 模型可生成格律严谨的古典诗词: 也能创作武侠风格的小说续篇: