无需编程！Fun-ASR WebUI界面手把手操作教程

优质文章学习记录

05 Apr 2026 — 15 min read

无需编程！Fun-ASR WebUI界面手把手操作教程

你是不是也遇到过这些情况：会议录音堆在文件夹里没时间听，客户语音留言转文字总出错，培训音频想整理成笔记却要花半天？别再复制粘贴到网页版工具、别再折腾Python环境、更别担心“CUDA out of memory”报错——今天这篇教程，专为完全不写代码的人准备。

Fun-ASR WebUI 是钉钉联合通义实验室推出的语音识别系统，由开发者“科哥”深度优化并封装成开箱即用的图形界面。它不是命令行里的冰冷指令，也不是需要配置10个参数才能跑起来的实验项目，而是一个像微信一样点点就能用的本地语音转文字工具。全程不需要安装Python包、不用改配置文件、不用查GPU型号——只要你会打开浏览器，就能把一段30分钟的采访音频，5分钟内变成带标点、分段清晰、数字自动规整的可编辑文本。

下面我将带你从零开始，像教朋友一样，一步步操作每一个按钮、解释每一处设置、避开所有新手踩坑点。你不需要懂“VAD”是什么，也不用知道“ITN”怎么拼，只需要跟着做，就能立刻上手。

1. 启动与访问：两步打开你的语音助手

Fun-ASR WebUI 不是云端服务，它运行在你自己的电脑或服务器上，所有音频都在本地处理，隐私安全有保障。启动过程极简，只需两个动作：

1.1 运行启动脚本

找到你下载或解压后的 Fun-ASR 文件夹，在里面找到一个叫 start_app.sh 的文件（Windows用户请使用 start_app.bat）。双击它，或者在终端中执行：

bash start_app.sh

你会看到终端窗口快速滚动几行日志，最后出现类似这样的提示：

INFO: Uvicorn running on http://0.0.0.0:7860 (Press CTRL+C to quit) INFO: Application startup complete.

这表示服务已成功启动。

1.2 在浏览器中打开界面

现在，打开你常用的浏览器（推荐 Chrome 或 Edge），在地址栏输入：

如果你是在自己电脑上运行 → 输入 http://localhost:7860
如果你是在远程服务器（比如公司NAS或云主机）上运行 → 输入 http://你的服务器IP:7860（例如 http://192.168.1.100:7860）

按下回车，你就会看到这个清爽的界面——没有广告、没有登录墙、没有试用限制，整个页面就是你的语音工作台。

小贴士：如果打不开，请先确认终端里是否显示“Uvicorn running...”；再检查防火墙是否放行了7860端口；Windows用户若提示“拒绝访问”，请右键以管理员身份运行 start_app.bat。

2. 六大功能模块速览：你每天会用到的六个入口

Fun-ASR WebUI 把所有能力都组织成清晰的标签页，顶部导航栏一目了然。我们先不急着点进去，而是用一句话说清每个模块是干什么的，帮你建立整体认知：

标签页名称	一句话说明	你什么时候会点它？
语音识别	给单个音频文件“拍照式”转文字	你手头有一段MP3会议录音，想马上转成文字
实时流式识别	对着麦克风说话，边说边出字	开线上会议时想实时记要点，或练习口语发音
批量处理	一次上传10个、50个音频，自动排队转写	整理上周5场客户访谈录音，不想一个一个传
识别历史	所有转写记录的“回收站+搜索器”	想找回三天前那条“关于合同付款条款”的识别结果
VAD 检测	告诉你音频里哪些时间段有人在说话	长达2小时的讲座录音里，只有23分钟是有效讲话
系统设置	调整模型在哪跑（CPU/GPU）、清内存、换模型	发现识别变慢了，想试试切换到GPU加速

你会发现，这六个入口覆盖了从“临时应急”到“日常批量”，从“现场交互”到“后台管理”的全部真实需求。接下来，我们就按使用频率排序，逐个手把手带你操作。

3. 语音识别：单文件转写的完整流程（含避坑指南）

这是最常用的功能，也是新手第一次体验Fun-ASR的起点。我们以一段常见的“产品介绍语音”为例，走完从上传到导出的全流程。

3.1 上传音频：两种方式，任选其一

在「语音识别」标签页，你会看到两个醒目的区域：

左侧大按钮：“上传音频文件”
点击后弹出系统文件选择框，支持 WAV、MP3、M4A、FLAC 等主流格式。你可以一次选一个，也可以按住 Ctrl 多选多个（但注意：这里多选≠批量处理，它只会依次处理，建议首次只传一个练手）。
右侧麦克风图标：“🎤 录音”
点击后浏览器会请求麦克风权限，点击“允许”。然后对着电脑说话，说完再点一次图标停止录音。适合临时录几句关键词、测试识别效果。

新手必看避坑点：如果上传后界面没反应，大概率是音频格式不兼容。优先用WAV格式（无损、兼容性最好），MP3请确保是标准采样率（16kHz或44.1kHz）；Mac用户若录音无声，请检查系统设置→隐私与安全性→麦克风→是否给浏览器授权；上传大文件（>100MB）可能卡住，建议先用Audacity等免费工具裁剪掉静音段。

3.2 关键参数设置：三步搞定，不求全，只求准

上传完成后，别急着点“开始识别”。下方这几项设置，能让你的识别结果从“差不多”变成“几乎不用改”：

▶ 热词列表（强烈推荐开启）

作用：告诉模型“这几个词特别重要，请务必认准”。比如你的录音里反复出现“Fun-ASR-Nano-2512”“科哥”“钉钉通义”，它们在普通词典里是生僻词，容易被误识别。
效果实测：未加热词时，“Fun-ASR”常被识别成“番阿斯尔”；加入后，10次识别全部准确。

怎么填：在文本框里每行写一个词，不用引号、不用逗号，例如：

Fun-ASR 科哥 通义实验室 VAD检测

▶ 目标语言（默认中文，但请确认）

下拉菜单里选“中文”“英文”或“日文”。Fun-ASR实际支持31种语言，但WebUI当前只开放这三种常用选项。如果你的录音是中英混杂（如技术汇报），选“中文”即可，模型已针对混合语料优化。

▶ 启用文本规整（ITN）（建议保持开启）

作用：把口语化表达自动转成书面规范格式。这是让结果“能直接用”的关键一步。
典型转换示例：
- “二零二五年十二月二十号” → “2025年12月20日”
- “一千二百三十四块五毛” → “1234.5元”
- “W A V格式” → “WAV格式”

实操建议：首次使用请务必勾选此项。关闭它，你会得到一堆需要手动替换的数字和单位。

3.3 开始识别与结果查看：等待10秒，收获全文

点击蓝色的 “开始识别” 按钮，界面上方会出现进度条和“正在识别…”提示。根据音频长度和设备性能，一般1分钟音频耗时3–8秒（GPU）或15–30秒（CPU）。

识别完成后，页面自动展开结果区域，你会看到两个并排文本框：

左侧：“识别结果” → 模型原始输出，保留所有停顿、重复、嗯啊等语气词（适合做语音分析）
右侧：“规整后文本” → 经ITN处理后的干净文本，已添加合理标点、合并重复、转换数字（适合直接复制进Word写报告）

小技巧：把鼠标悬停在右侧文本框右上角，会出现“复制全部”按钮，一点就复制，免去全选Ctrl+C的麻烦。

4. 实时流式识别：像用语音助手一样自然对话

这个功能最接近我们日常用的智能音箱体验——你说，它听，它即时显示文字。虽然Fun-ASR原生不是端到端流式模型，但通过VAD智能切分+毫秒级推理，做到了“几乎无感延迟”。

4.1 准备工作：三件事必须做完

确保麦克风正常：在系统声音设置里测试输入电平，说话时有绿色波形跳动；
浏览器授权：首次点击麦克风图标时，地址栏左侧会出现锁形图标，点击→“网站设置”→“麦克风”→设为“允许”；
环境安静：关闭空调、风扇等持续噪音源，背景越安静，VAD切分越准。

4.2 操作流程：四步完成一次对话记录

点击麦克风图标（🎤），听到“滴”一声提示，开始说话；
说完一句（比如：“今天的会议重点有三点”），自然停顿1秒以上；
系统会自动检测静音，触发识别，并在下方文本区显示第一句结果；
继续说下一句，重复步骤1–3，所有结果自动追加在下方。

注意：这不是“连续语音流”，而是“短句分段识别”。每句话独立识别，所以即使中间停顿久一点，也不会丢失上下文。实测单句识别延迟约300–600ms，人耳完全无法察觉卡顿。

4.3 提升体验的两个隐藏技巧

热词同样生效：在实时识别页填写热词，对专业术语识别提升显著；
结果可编辑：识别出的文字支持直接修改（比如把“科哥”误识成“哥哥”，双击就能改），改完后按 Ctrl+Enter 保存当前句。

5. 批量处理：50个音频，1次上传，自动搞定

当你面对一整个文件夹的录音时，这个功能就是效率翻倍的关键。它不是简单地“多传几个”，而是真正意义上的任务队列管理。

5.1 上传与配置：一次设定，全局生效

点击“上传音频文件”，可一次性拖拽整个文件夹（支持子文件夹），或按住 Ctrl 多选多个文件；
参数设置区（目标语言、ITN、热词）会应用到所有上传文件，无需逐个设置；
点击“开始批量处理”，任务立即进入后台队列。

5.2 进度监控与结果导出：所见即所得

页面中央实时显示：已完成 3/12、当前处理：interview_07.mp3、平均耗时：4.2s/文件；
全部完成后，自动跳转到结果汇总页，每行一条记录，包含：文件名、识别状态（成功/失败）、原始文本预览（前30字）、规整后文本预览；
点击任意一行右侧的“详情”按钮，可查看该文件完整结果；
点击顶部“导出全部结果”，选择 CSV（适合Excel分析）或 JSON（适合程序员对接），一键下载压缩包。

实用建议：单批建议不超过50个文件，避免内存压力；若某文件识别失败（如格式损坏），系统会跳过并记录错误日志，不影响其他文件；导出的CSV包含列：filename, timestamp, raw_text, normalized_text, language, hotwords_used，方便后续做质量统计。

6. 识别历史：你的私人语音知识库

所有识别记录默认永久保存在本地数据库（webui/data/history.db），形成你的专属语音资产库。它不只是“记录”，更是可搜索、可管理、可复用的知识中心。

6.1 查看与搜索：像用搜索引擎一样找记录

默认显示最近100条，按时间倒序排列；
在顶部搜索框输入任意关键词（如“合同”“付款”“2025”），系统会同时匹配文件名和识别结果内容，实时过滤；
搜索结果支持导出：点击“导出筛选结果”，只下载符合关键词的记录。

6.2 管理与维护：三招保持库整洁高效

查看详情：输入记录ID（左上角编号），查看完整信息，包括原始音频路径、完整文本、使用的热词、ITN开关状态；
删除单条：勾选左侧复选框，点击“删除选中记录”，适合清理误操作或测试数据；
清空全部：底部红色按钮“清空所有记录”，点击后需二次确认。建议每月执行一次，释放磁盘空间。

高级用法：SQLite数据库可直接用DB Browser等免费工具打开，你甚至可以写SQL查询“所有含‘报价单’且语言为中文的记录”，实现深度分析。

7. VAD检测：让长音频“瘦身”，精准定位说话时段

一段2小时的讲座录音，真正说话的时间可能只有25分钟。VAD（语音活动检测）就是帮你自动找出这25分钟的“黄金片段”，省去手动拖进度条的麻烦。

7.1 使用场景与价值

教学场景：老师讲课录音中穿插大量翻页、咳嗽、学生提问，VAD帮你提取纯讲课段；
客服质检：从坐席通话录音中分离出客户陈述部分，单独做情感分析；
预处理加速：先用VAD切分，再对每个语音段单独识别，比整段识别快3倍以上。

7.2 操作三步走

上传长音频（支持所有格式）；
设置“最大单段时长”（默认30000ms=30秒）——防止单句过长影响识别精度；
点击“开始 VAD 检测”，几秒后显示所有语音片段的起止时间（如 00:02:15 – 00:03:42）和时长（87秒）。

检测结果页还提供“导出语音片段”按钮，可一键生成带时间戳命名的WAV小文件（如 segment_000215_000342.wav），直接用于后续识别或人工抽检。

8. 系统设置：让Fun-ASR跑得更快、更稳、更省心

最后这个设置页，不是给极客准备的，而是给所有希望“少操心、多干活”的用户设计的实用控制台。

8.1 计算设备：一键切换，效果立现

自动检测（推荐新手）：系统自行判断最佳设备；
CUDA (GPU)：如果你有NVIDIA显卡（GTX 10系及以上），选此项，识别速度提升2–5倍；
CPU：集成显卡或无独显笔记本用户，稳定但稍慢；
MPS：Mac M系列芯片用户专属，利用Apple Silicon GPU加速。

切换后无需重启，点击“应用设置”立即生效。实测RTX 3060下，1分钟音频识别从22秒降至4.3秒。

8.2 关键维护操作：三键解决90%问题

清理 GPU 缓存：识别变慢、卡顿、报错时，点它，秒级释放显存；
卸载模型：彻底清空内存，为其他AI应用腾空间；
重载模型：更换模型文件后，点它刷新，无需重启整个服务。

9. 总结：你已经掌握了90%的日常使用场景

回顾一下，今天我们完成了这些事：

两步启动服务，用浏览器打开即用；
学会语音识别全流程：上传→设热词→开ITN→得结果；
掌握实时识别技巧：自然停顿、即时修改、边说边出；
解决批量处理难题：一次上传、自动排队、导出报表；
搭建个人语音知识库：搜索、筛选、导出、定期清理；
利用VAD为长音频“减脂”，精准提取有效语音段；
通过系统设置，让Fun-ASR在你的设备上跑得又快又稳。

你不需要记住所有参数，也不用背诵技术名词。只要记住三个核心原则：
① 优先用WAV格式上传；② 专业词一定加热词；③ 长音频先做VAD再识别。
做到这三点，你的语音转写准确率和效率，就能超过市面上90%的在线工具。

Fun-ASR的价值，从来不在参数多炫酷，而在于它把前沿语音技术，变成了你电脑里一个安静、可靠、随时待命的同事。它不打扰你，但每次你需要时，它都在。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

无需编程！Fun-ASR WebUI界面手把手操作教程

优质文章学习记录