ESP32 小智 AI 机器人语音对话系统搭建与云端部署 | 极客日志

CAI算法

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

详细介绍基于 ESP32-S3 构建语音对话机器人的完整流程。内容涵盖硬件选型（I2S 麦克风、显示屏）、开发环境搭建（ESP-IDF、VSCode）、本地语音唤醒（ESP-SR WakeNet）、流式音频传输（WebSocket）以及云端服务部署（SenseVoice 语音识别 + DeepSeek/Qwen 大模型）。通过代码示例展示设备端录音上传与云端回复接收的实现逻辑，适合希望从零开始制作 AI 语音助手的开发者参考。

协议工匠发布于 2026/4/5更新于 2026/5/2428 浏览

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

1. 基础原理

ESP32 架构及其在 AI 领域的应用

ESP32 是一款集成 Wi-Fi 和蓝牙的双核微控制器，具有较高的主频和丰富的外设接口，适合物联网和嵌入式 AI 应用。特别是新版的 ESP32-S3 芯片，不仅运行频率高达 240MHz，还内置了向量加速指令并支持高速 PSRAM，从而可以在一定程度上加速神经网络推理。在 AI 领域，ESP32 常用于边缘设备，执行一些轻量级的本地 AI 任务（如语音关键词检测、简单的图像识别等），或充当连接云端 AI 服务的桥梁。由于资源有限，ESP32 无法独立运行大型深度学习模型，但它可以负责前端的数据采集和初步处理（如音频处理），然后将数据传输给云端或本地服务器上的强大 AI 模型进行复杂计算，再将结果返回设备。

语音唤醒模块（ESP-SR）的工作原理

乐鑫官方提供了 ESP-SR (Speech Recognition) 语音识别框架，包含唤醒词引擎（WakeNet）、命令词识别（MultiNet）等组件。其中唤醒词功能用于在设备待机时持续监听音频流，当检测到特定的唤醒词时触发设备进入对话/识别状态。例如，我们可以将'小智小智'设定为唤醒词。当 ESP32 运行 WakeNet 模型时，它会不断从麦克风录制音频并计算梅尔频谱倒谱系数（MFCC）等特征，然后通过一个针对 ESP32-S3 优化的神经网络算法对特征进行分类。一旦检测到训练好的关键词序列，WakeNet 就输出唤醒信号，唤醒设备进入语音交互状态。这种本地唤醒机制即使在有环境噪声的情况下也能保持较高的准确率。ESP-SR 默认提供了一些开箱即用的唤醒词模型，开发者也可以定制自己的唤醒词模型。工作流程是：麦克风采集到的模拟音频经前端处理（降噪、增益等），送入 WakeNet 模型进行关键词检测。如果未检测到唤醒词，设备保持低功耗待机；一旦检测到唤醒词，设备即进入后续的语音识别或对话流程。同时，为了节省运算资源，ESP32 在唤醒后通常会暂停 WakeNet，以便释放 CPU 处理后续音频；待对话完成后再重新启用 WakeNet 监听下一个唤醒词。

流式对话的概念及 WebSocket/UDP 传输机制

所谓流式对话，是指机器人在唤醒后能够实时地接收和发送数据，与用户进行连续的对话交流，而非一次性等待用户说完整句子再回复。要实现流式对话，ESP32 需要将用户的语音数据边录制边发送到云端的语音识别/大模型服务，并且及时接收对方返回的回复数据。这通常涉及到稳定高效的网络传输机制。常用的方式有两种：

WebSocket 通信： WebSocket 是基于 TCP 的全双工长连接协议，非常适合实时数据交换。一旦建立连接，服务器和客户端（ESP32）都可以随时发送数据而不需要重复握手。在本项目中，可在 ESP32 启动时就建立一个通向服务器的 WebSocket 长连接。ESP32 检测到唤醒词后，立即通过该 WebSocket 流式发送音频数据到服务器。服务器一边接收音频流一边进行语音识别，并将部分结果或最终结果通过同一连接发回给 ESP32。得益于 WebSocket 保持的长连接，数据可以持续、快速地往返，实现即时的对话体验。
UDP 传输： UDP 是基于数据报的传输协议，开销小、延迟低，但不保证可靠送达。在一些对实时性要求极高且可以容忍少量数据丢失的场景，可以考虑使用 UDP 将音频帧连续地发送到服务器。不过 UDP 没有内建重发、排序机制，需要应用层自行处理丢包重传或顺序问题。因此，对于初学者项目来说，UDP 方案实现难度略高，而且在局域网环境下 WebSocket 已经可以提供足够低的延迟和可靠性。所以通常推荐使用 WebSocket 实现流式语音对话。

总结来说，本项目将利用 ESP32-S3 的本地语音唤醒能力，让设备在检测到'小智'唤醒词后，开始录音并流式发送音频到云端，通过 WebSocket 与服务器上的大语言模型保持对话数据的实时交互。当云端返回文本应答后，ESP32 可将其显示在屏幕上（或语音播报），从而完成一次人机对话循环。

2. 硬件准备

要制作一个语音对话机器人，我们需要准备以下硬件组件，并确保它们兼容且正确连接：

ESP32-S3 开发板（带有 PSRAM） – 核心控制器，大脑所在。建议选择 ESP32-S3 系列开发板，因其具备 AI 加速指令集和高速 PSRAM，可支持语音唤醒等 AI 功能。常见选项包括官方的 ESP32-S3-DevKitC-1（WROVER 模块带 8MB PSRAM）、或多合一的语音开发板如 ESP32-S3-Korvo 系列和 ESP32-S3-BOX 等。这些板子自带麦克风阵列、音频编解码等硬件，方便语音应用开发。
麦克风 – 用于采集用户语音。强烈推荐使用 I2S 接口的数字麦克风（MEMS 麦克风），例如 INMP441 模块。数字麦克风可以直接将音频数据以数字信号传给 ESP32，抗干扰能力强，音质更好。避免使用模拟麦克风加 ADC 的方法，因为 ESP32 自带的 ADC 精度有限且噪声较大，模拟方案音质往往不佳。常用的 I2S 麦克风模块有 INMP441、ICS-43434 等，它们需要连接 ESP32 的 I2S 接口引脚（WS, SCK, SD 等）以及电源。
扬声器和音频放大器（可选） – 用于语音播报机器人回复。如果希望机器人能'说话'，需要一个小型扬声器（如 4Ω 3W）的输出方案。ESP32 可以通过内置 DAC 输出模拟音频，但驱动扬声器需要功率放大器。常用方案是使用 I2S 数字功放模块（如 MAX98357A）将 ESP32 的 I2S 音频输出转换为扬声器驱动信号。该模块接收 ESP32 的 I2S 数据和时钟，输出功率音频信号，直接驱动小喇叭。如果暂时不需要语音输出，也可以先不接扬声器，后续通过串口日志或屏幕查看机器人回复的文本。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

SenseVoice 语音识别模型及 API： 这是阿里巴巴达摩院开源的一个多语言语音理解模型，支持语音转文本 (ASR)、语言识别、情感识别等功能。相较于其他开源方案，SenseVoice 在中文等多语言识别上精度很高，据称训练了超 40 万小时语音数据，效果优于 OpenAI 的 Whisper 模型。我们可以使用开源社区提供的 SenseVoice 推理代码或封装好的 API 服务。例如，GitHub 上的项目 SenseVoice-API 提供了基于 ONNXRuntime 的轻量级封装和 FastAPI 接口，方便我们将 SenseVoice 部署成一个本地服务。请按照该项目说明安装所需依赖（如 Python 及 onnxruntime）并下载模型文件，然后启动服务用于将音频流转成文本。
DeepSeek / Qwen 大语言模型： 为了让机器人更智能地对答，我们需要接入一个强大的大语言模型 (LLM)。DeepSeek 是国内开源的一个系列大模型，基于强化学习技术训练，性能媲美一些商业模型。他们提供了多种版本，包括体积较小的蒸馏模型（如基于 Qwen-7B 的 DeepSeek-R1 Distill）以及更大的 Qwen-32B/72B 模型。其中 Qwen (通义千问) 是阿里巴巴开源的大模型系列，7B 和 14B 版本已开源，而 72B 参数的模型则在阿里云上提供服务。您可以根据自身算力选择使用哪种模型：如果本地有高性能 GPU，可以尝试部署 7B 左右参数的模型运行；如果没有，则可以考虑通过在线 API 调用这些模型的推理服务。阿里云提供了 DashScope API 接口来调用通义千问模型，只需注册获取 API Key 即可使用。无论本地部署还是云端 API，请先安装好相应的 Python 库：如 Hugging Face Transformers（用于加载 DeepSeek/Qwen 模型）或者官方提供的 SDK（如 DashScope SDK）。
其他工具： 音频处理库（如 pyaudio 或 soundfile）可能用于服务器录音或读取文件；用于 WebSocket 通信的库（如 websockets for Python 或 Node.js 的 socket 库）如果您计划实现实时流式传输；以及 HTTP 客户端工具（如 requests）用于调用 RESTful API 等。如果打算使用 Node.js 作为服务器，也需要准备好 Node.js 环境以及相关依赖（如用于 WebSocket 的 ws 库，用于调用 AI 服务的 SDK 等）。

#include "esp_sr_iface.h"
#include "esp_sr_models.h"

// 1. 配置声学前端 (AFE) 参数
afe_config_t afe_config = AFE_CONFIG_DEFAULT();
afe_config.wakenet_init = true; // 启用唤醒词检测
afe_config.voice_communication_init = false; // 不启用通话模式，以免与唤醒冲突
afe_config.wakenet_model_name = "wn9_xiaozhi"; // 指定唤醒词模型名称
afe_config.wakenet_mode = DET_MODE_1CH; // 麦克风通道：单通道模式

// 2. 初始化 AFE，并加载唤醒词模型
sr_handle_t sr_handle = sr_handle_init(&afe_config);
if (!sr_handle) {
    printf("ESP-SR 初始化失败\n");
    return;
}
esp_err_t ret = sr_wakenet_init(sr_handle);
if (ret == ESP_OK) {
    printf("唤醒词引擎加载成功\n");
}

// 3. 注册唤醒回调，当检测到唤醒词时执行
sr_set_wakenet_cb(sr_handle, on_wakeup_detected);

// 假设已经建立好 WebSocket 连接，句柄为 ws_client
#define SAMPLE_RATE 16000
#define BYTES_PER_SAMPLE 2 // 16-bit audio
#define BUFFER_SIZE 512 // 每次读取 512 字节（256 个采样）
bool recording = false;

void on_wakeup_detected() {
    printf("唤醒词检测到！开始录音...\n");
    recording = true;
    // 可选：暂停 WakeNet 以节省 CPU
    disable_wakenet(sr_handle);
}

void audio_record_task(void *arg) {
    char mic_buffer[BUFFER_SIZE];
    size_t bytes_read = 0;
    int silence_count = 0;
    const int silence_threshold = 5; // 连续静音块计数阈值

    // 连续循环读取麦克风数据
    while (true) {
        // 阻塞读取一块音频数据
        i2s_read(I2S_NUM_0, mic_buffer, BUFFER_SIZE, &bytes_read, portMAX_DELAY);
        if (!recording) {
            continue; // 未触发录音就丢弃数据
        }
        // 将读取的数据通过 WebSocket 发出
        if (bytes_read > 0) {
            esp_websocket_client_send_bin(ws_client, mic_buffer, bytes_read, portMAX_DELAY);
        }
        // 简单静音检测：如果本次数据全是低幅值 (接近静默)
        bool is_silence = check_silence(mic_buffer, bytes_read);
        if (is_silence) {
            silence_count++;
        } else {
            silence_count = 0;
        }
        // 如果连续多帧静默，认为讲话结束
        if (silence_count > silence_threshold) {
            // 发送特殊标志表示音频结束
            esp_websocket_client_send_text(ws_client, "<END>", 5, portMAX_DELAY);
            recording = false;
            enable_wakenet(sr_handle); // 重新启用唤醒监听
            printf("录音结束，等待回复...\n");
        }
    }
}

// 简单起见，在主任务里轮询接收服务器消息
char recv_buf[256];
for (;;) {
    int32_t rlen = esp_websocket_client_receive(ws_client, recv_buf, sizeof(recv_buf) - 1, portMAX_DELAY);
    if (rlen > 0) {
        recv_buf[rlen] = 0; // 以 NULL 结尾形成字符串
        if (strcmp(recv_buf, "<ACK>") == 0) { // 服务器确认收到音频的应答，可忽略或用于统计
            continue;
        }
        printf("云端回复：%s\n", recv_buf);
        // 将回复显示到 OLED 屏幕（伪函数）
        display_text_on_screen(recv_buf);
        // 可选：调用本地 TTS 播放语音（此处省略）
    }
}

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-7B")
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", device_map="auto")
# 假设已经得到用户输入文本
user_text = input()
input_ids = tokenizer.encode(user_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=200)
response_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

from dashscope import Completion
Completion.api_key = "<你的通义 API Key>"
response = Completion.create(prompt=user_text, model="qwen-plus")
answer_text = response.completions[0].text

import asyncio, websockets
from sensevoice import ASRModel # 假设封装好的识别类
from your_llm_api import LLMAPI # 假设封装的大模型调用

asr_model = ASRModel.load("SenseVoiceSmall") # 加载识别模型
llm_api = LLMAPI(api_key="...") # 初始化大模型 API

async def handle_client(websocket, path):
    print("客户端已连接")
    audio_bytes = b""
    async for message in websocket:
        if isinstance(message, bytes): # 累积音频数据
            audio_bytes += message
        elif message == "<END>": # 收到音频结束
            user_text = asr_model.transcribe(audio_bytes) # 语音转文本
            print("识别结果:", user_text)
            answer = llm_api.ask(user_text) # 调用大模型获取回复
            await websocket.send(answer) # 发送回复给 ESP32
            audio_bytes = b"" # 清空缓冲，准备下一次对话
        else: # 处理其他控制消息，例如心跳/确认
            await websocket.send("<ACK>")

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

1. 基础原理

ESP32 架构及其在 AI 领域的应用

语音唤醒模块（ESP-SR）的工作原理

流式对话的概念及 WebSocket/UDP 传输机制

2. 硬件准备

更多推荐文章

相关免费在线工具

3. 软件环境搭建

安装 ESP-IDF 开发框架

配置 VSCode/Cursor 开发环境

安装所需库和工具

4. 代码实现

4.1 初始化语音唤醒功能

4.2 处理语音输入并上传至大模型

4.3 与云端模型的交互并返回文本

5. 云端部署

连接大语言模型 (DeepSeek/Qwen 等)

调用语音识别 API

服务器端搭建 AI 服务

6. 优化与扩展

更多推荐文章

相关免费在线工具

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

ESP32 小智 AI 机器人语音对话系统搭建与云端部署

1. 基础原理

ESP32 架构及其在 AI 领域的应用

语音唤醒模块（ESP-SR）的工作原理

流式对话的概念及 WebSocket/UDP 传输机制

2. 硬件准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 软件环境搭建

安装 ESP-IDF 开发框架

配置 VSCode/Cursor 开发环境

安装所需库和工具

4. 代码实现

4.1 初始化语音唤醒功能

4.2 处理语音输入并上传至大模型

4.3 与云端模型的交互并返回文本

5. 云端部署

连接大语言模型 (DeepSeek/Qwen 等)

调用语音识别 API

服务器端搭建 AI 服务

6. 优化与扩展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具