前端接入腾讯云 ASR 实时语音识别实践 | 极客日志

JavaScriptAI大前端

前端接入腾讯云 ASR 实时语音识别实践

综述由AI生成介绍在前端 H5/Web 环境下直接接入腾讯云 ASR 实时语音识别的方案。重点解析了鉴权签名生成中的 CryptoJS WordArray 转换坑点、流式识别配置参数（如 VAD）、事件回调处理流程以及生产环境的安全建议（SecretKey 移至后端）。通过代码拆解帮助开发者避免常见调试错误，实现低延迟的语音交互体验。

黑客帝国发布于 2026/4/6更新于 2026/5/2032 浏览

前端接入腾讯云 ASR 实时语音识别实践

在数字人交互、智能客服或语音助手的 Web 开发中，实时语音识别（ASR） 是最基础也是最核心的入口。市面上方案众多，本文深入剖析如何在前端（H5/Web）直接接入腾讯云的一句话识别 SDK。

1. 为什么选择纯前端接入？

通常 ASR 接入有两种模式：

后端代理：前端录音传给后端，后端调用腾讯云 API。安全，但延迟高。
前端直连：浏览器直接录音并通过 WebSocket 直连腾讯云。速度最快，交互体验最好。

本方案采用前端直连。这种方案最大的挑战在于：如何在前端安全且正确地生成鉴权签名，以及如何处理复杂的音频流事件。

2. 核心依赖与准备

代码中引入了两个关键文件：

<script src="./public/cryptojs.js"></script>
<script src="./public/speechrecognizer.js"></script>

speechrecognizer.js：腾讯云官方的 Web Audio SDK，负责采集麦克风音频、分片、并通过 WebSocket 发送。
cryptojs.js：加密库。因为是前端直连，我们需要在前端进行 HMAC-SHA1 签名计算（注意：生产环境建议由后端生成签名接口，前端获取，避免 SecretKey 泄露。但在开发测试阶段，前端自签非常方便）。

3. 攻克第一关：鉴权签名（Signature）

这是大多数开发者遇到的第一个'拦路虎'。腾讯云 ASR 需要对请求进行鉴权。很多教程只告诉你'用 HMAC-SHA1'，但没告诉你数据格式转换的坑。

源码深度解析

看看这段看似不起眼的工具函数：

// 坑点所在：CryptoJS 生成的是 WordArray，需要转成 Uint8Array 再转 String，最后 Base64
function toUint8Array(wordArray) {
    const words = wordArray.words;
    const sigBytes = wordArray.sigBytes;
    const u8 = new Uint8Array(sigBytes);
    for (let i = 0; i < sigBytes; i++) {
        u8[i] = (words[i >>> 2] >>> (24 - (i % ) * )) & ;
    }
     u8;
}

 () {
     dataString = ;
     ( i = ; i < fileData.; i++) {
        dataString += .(fileData[i]);
    }
     dataString;
}

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

signCallback: function(signStr) {
    const hash = window.CryptoJSTest.HmacSHA1(signStr, secretKey);
    const bytes = Uint8ArrayToString(toUint8Array(hash)); // 关键步骤
    return window.btoa(bytes);
}

const config = {
    engine_model_type: '16k_zh',      // 16k 采样率中文模型，比 8k 更准
    voice_format: 1,                  // 原始音频格式
    filter_dirty: 1,                  // 过滤脏词（生产环境必备）
    filter_modal: 1,                  // 过滤语气词（"啊"、"嗯"），让文字更干净
    filter_punc: 1,                   // 自动加标点（对长文本阅读很重要）
    needvad: 1,                       // 开启 VAD（静音检测）
    vad_silence_time: 300             // 关键参数：300ms 无声自动断句
};

function checkSDKs() {
    if (!window.CryptoJSTest) missingSDKs.push('CryptoJS');
    if (!window.WebAudioSpeechRecognizer) missingSDKs.push('WebAudioSpeechRecognizer');
    // ...
}

前端接入腾讯云 ASR 实时语音识别实践

前端接入腾讯云 ASR 实时语音识别实践

1. 为什么选择纯前端接入？

2. 核心依赖与准备

3. 攻克第一关：鉴权签名（Signature）

源码深度解析

更多推荐文章

相关免费在线工具

4. 极致体验：流式识别配置

5. 事件驱动的艺术：从'听见'到'听懂'

6. 真实环境下的调试与容错

7. 总结与建议

更多推荐文章

相关免费在线工具

前端接入腾讯云 ASR 实时语音识别实践

前端接入腾讯云 ASR 实时语音识别实践

1. 为什么选择纯前端接入？

2. 核心依赖与准备

3. 攻克第一关：鉴权签名（Signature）

源码深度解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 极致体验：流式识别配置

5. 事件驱动的艺术：从'听见'到'听懂'

6. 真实环境下的调试与容错

7. 总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具