rk3588 MIPI采集 + OpenCV处理 + 硬件编码推流 + WebRTC低延迟播放 + 客户端保存视频

优质文章学习记录

06 Apr 2026 — 7 min read

本人是第一次做摄像头推流相关的工作，一开始只是想简单做一个小工具。但是经过我几天的研究，发现网上的教程要么极其复杂，要么漏洞百出，导致我连最简单的推流都迟迟没做出来。

经过几天的极限折腾，我终于打通了 MIPI摄像头 -> 硬件ISP -> OpenCV(AI处理) -> 硬件H.264编码 -> 局域网WebRTC超低延迟推流与客户端录制 -> 客户端保存视频 的完整链路。今天把整套方案和踩过的深坑全盘托出，希望能帮大家少走弯路。

整体架构思路

主要功能使用python实现：

画面采集：使用 GStreamer 直接对接底层驱动，利用 RK3588 的硬件 ISP 把 MIPI RAW 数据转成彩色的缩小画面。
opencv处理：OpenCV 拿到图片后，可以进行你想要的图像处理。
硬件编码推流：将处理后的画面交给 mpph264enc（瑞芯微硬件编码器）压缩，推给本机的流媒体服务器。
终端分发：使用极其轻量的 MediaMTX 作为流媒体服务器，客户端通过 WebRTC 协议实现网页端秒开与超低延迟观看。

第一步：环境准备

确认你的摄像头节点（比如单摄时是 /dev/video11）。

确保安装了带 GStreamer 支持的 OpenCV 和相关插件（注意pypi上的opencv默认不支持gstreamer，建议直接下载系统环境的opencv，或者手动编译）：

sudoapt-get update sudoapt-getinstall python3-opencv sudoapt-getinstall gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugins-ugly gstreamer1.0-rtsp

第二步：部署轻量级流媒体服务器 (MediaMTX)

注意：此服务器不是我们通常理解的网站服务器，我使用的设备只有板子和我的电脑。
建议在板子上跑服务器，这样客户端不需做任何配置

在 RK3588 上下载 ARM64 版本并运行：

wget https://github.com/bluenviron/mediamtx/releases/download/v1.16.1/mediamtx_v1.16.1_linux_arm64.tar.gz tar -zxvf mediamtx_v1.16.1_linux_arm64.tar.gz ./mediamtx

你应该能看到以下输出

cat@lubancat:~/Downloads$ ./mediamtx 2026/02/21 15:07:07 INF MediaMTX v1.16.1, linux, arm64 2026/02/21 15:07:07 INF configuration loaded from /home/cat/Downloads/mediamtx.yml 2026/02/21 15:07:07 INF [RTSP] listener opened on :8554 (TCP/RTSP), :8000 (UDP/RTP), :8001 (UDP/RTCP) 2026/02/21 15:07:07 INF [RTMP] listener opened on :1935 2026/02/21 15:07:07 INF [HLS] listener opened on :8888 2026/02/21 15:07:07 INF [WebRTC] listener opened on :8889 (HTTP), :8189 (ICE/UDP) 2026/02/21 15:07:07 INF [SRT] listener opened on :8890 (UDP)

(保持此终端不关，另外打开新的终端)

第三步：核心 Python 脚本（rtsp推流与处理）

新建一个 Python 脚本 stream.py。这段代码包含了降分辨率、防缓存延迟和调用 MPP 硬件编码的核心参数。

import cv2 import time classFPSCounter:"""FPS counter class"""def__init__(self, buffer_size=20): self.timestamps =[] self.buffer_size = buffer_size defupdate(self):"""Update FPS count""" current_time = time.time() self.timestamps.append(current_time)# Keep only recent timestampsiflen(self.timestamps)> self.buffer_size: self.timestamps.pop(0)defget_fps(self):"""Calculate current FPS"""iflen(self.timestamps)<2:return0.0 time_span = self.timestamps[-1]- self.timestamps[0]if time_span <=0:return0.0return(len(self.timestamps)-1)/ time_span # 1. 配置读取摄像头的 GStreamer Pipeline (根据你的MIPI摄像头节点调整，这里假设是 /dev/video11)# 强制设定分辨率和帧率，并转换为BGR格式给OpenCV处理 cap_pipeline =("v4l2src device=/dev/video11 io-mode=2 ! ""video/x-raw, width=640, height=480, framerate=30/1, format=NV12 ! "# 可以选择你想要的图像大小"videoconvert ! video/x-raw, format=BGR ! ""appsink"# 可选：max-buffers=1 drop=true -> 强制丢弃旧画面，永远只读最新帧！)# 2. 配置推流的 GStreamer Pipeline# appsrc接收OpenCV的BGR图像，转为NV12，交给mpph264enc硬编，然后推流给MediaMTX push_pipeline =("appsrc is-live=true ! ""video/x-raw, format=BGR, width=640, height=480, framerate=30/1 ! ""videoconvert ! video/x-raw, format=NV12 ! ""mpph264enc bps=4000000 rc-mode=vbr ! ""h264parse ! ""rtspclientsink location=rtsp://127.0.0.1:8554/live protocols=tcp"# 可选：sync=false -> 不用帧同步)# 初始化视频读取 cap = cv2.VideoCapture(cap_pipeline, cv2.CAP_GSTREAMER)ifnot cap.isOpened():print("错误：无法打开 MIPI 摄像头。请检查节点和 ISP 状态。") exit()# 初始化视频推流器 out = cv2.VideoWriter(push_pipeline, cv2.CAP_GSTREAMER,0,30,(640,480))ifnot out.isOpened():print("错误：无法初始化 GStreamer 推流器。") exit()print("成功启动采集和推流，按 'Ctrl+C' 停止。")try: fps_counter = FPSCounter()whileTrue: ret, frame = cap.read()ifnot ret:print("未能读取到画面")break# ==========================================# ★ 在这里加入你的 AI 推理代码 ★# ==========================================# 例如：# results = rknn_model.inference(frame)# frame = draw_bounding_boxes(frame, results) fps_counter.update() fps = fps_counter.get_fps()# 作为演示，我们在这里加上时间戳和fps cv2.putText(frame,f"Time: {time.ctime()}",(30,50), cv2.FONT_HERSHEY_SIMPLEX,1,(0,0,255),1) cv2.putText(frame,f"Fps: {fps}",(30,100), cv2.FONT_HERSHEY_SIMPLEX,1,(0,0,255),1)# ==========================================# 将画好框的处理后图像，写入推流管道（由mpp硬件编码） out.write(frame)except KeyboardInterrupt:print("停止推流...")finally: cap.release() out.release()

运行脚本：python3 stream.py

第四步：如何在客户端观看与保存？

此时，你的 RK3588 已经变成了一个的 IP 摄像头。假设你的板子局域网 IP 是 192.168.0.137。

** 1. 低延迟观看（网页直开）**
直接在电脑/手机浏览器里输入：👉 http://192.168.0.137:8889/live (这里的端口号在之前MediaMTX的输出中能看到)
利用 WebRTC 协议，延迟基本在百毫秒以内。

** 2. 在客户端无损录像（不需板端CPU占用）**
想要在电脑上把刚才的监控视频存下来？只需要一行命令，直接将底层编好的 H.264 流封装成文件，完全不消耗客户端算力：
在电脑上安装ffmpeg（windows / linux / mac均可），运行：

ffmpeg -rtsp_transport tcp -i rtsp://192.168.0.137:8554/live -c copy -f mp4 record_video.mp4 # 注意这里的端口号选的是8554（rtsp）

cpu占用与延迟

以下是纯推流，基本没有图像处理的资源消耗。

延迟的话，体感上在1秒以内，没准确测过。
所以实际上还有很大的优化空间

避坑指南

分享几个过程中最容易卡住的问题：

使用gstreamer无法打开摄像头
- 原因：RK3588 的 V4L2 驱动在处理 MIPI 摄像头和 ISP 内存时，默认的 mmap 内存映射方式有时候在 GStreamer 中会引发异常（特别是在申请 buffer 时）
- 解法：给 v4l2src 加上 io-mode=4（使用 DMABUF）或 io-mode=2（USERPTR）往往能瞬间解决问题。
MediaMTX报错 invalid rtmp version (71)
- 原因：进错端口了！用 HTTP 浏览器去访问了 1935 (RTMP) 或 8554 (RTSP) 端口。
- 解法：浏览器观看必须要访问 8889 端口。
推流成功了，但是画面全是“纯绿色”的
- 原因：OpenCV 推入的画面分辨率和推流器配置的分辨率不匹配，导致内存错位；或者忘记启动 rkaiq ISP 服务导致画面全是空数据。
- 解法：严格检查 cap_pipeline、cv2.VideoWriter 和 push_pipeline 三个地方的分辨率参数是否完全一致。
延迟越来越大，跑久了像看回放
- 原因：加入 AI 推理后处理速度跟不上采集速度，OpenCV 把旧画面全缓存在了内存里。
- 解法：务必在读取管道末尾加上 appsink max-buffers=1 drop=true。

小贴士

我们直接传图像到pc端之所以会卡，只是因为图像没有经过压缩，网络传输速度不够。如果只是单纯想流畅的观看调试图像，可以直接用opencv自带的编码函数：

# 编码为 JPEG 格式 success, encoded_img = cv2.imencode(".jpg", img)

然后再通过flask之类的框架进行网络传输，好处是简单直接方便，只是性能不高。

AI赋能专利翻译，八月瓜科技“妙算翻译大模型”亮相国际论坛

当前，国家高度重视人工智能与知识产权融合发展，《新一代人工智能发展规划》明确提出“推动人工智能在知识产权检索、分析、翻译等领域的深度应用，提升知识产权服务效率与质量”，《“十四五”国家知识产权保护和运用规划》也强调“加强知识产权信息化、智能化基础设施建设，推动专利信息跨语言互通”。顺应这一政策导向，专利领域对专业化翻译的需求愈发迫切。八月瓜科技“妙算翻译大模型”立足需求，凭借深厚的技术积累与精准的场景适配，成为破解行业痛点、助力跨境创新的核心力量。国际论坛亮相获认可，产品实力彰显初心日前，妙算翻译大模型凭借在专利翻译领域的突出实力与创新成果，亮相东盟+中日韩（10+3）人工智能产业发展论坛，成为论坛上聚焦知识产权服务智能化的亮点成果，获得了行业专家、参会企业及相关机构的高度关注与广泛认可。此次论坛亮相，不仅是对妙算翻译大模型技术实力与应用价值的权威肯定，更彰显了其在推动专利翻译智能化、打破跨国创新语言壁垒方面的重要作用，为其进一步拓展市场、服务更多科技创新主体奠定了坚实基础。能获得行业广泛认可，核心源于产品本身的专业定位与硬核实力。妙算翻译大模型在语言

OpenCode AI 编程保姆级使用教程：从安装到实战，效率直接拉满

前言当下 AI 编程工具层出不穷，而OpenCode凭借开源免费、多模型兼容、多端适配、项目级上下文感知的核心优势，成为了程序员的新晋效率神器。它不是简单的代码补全工具，而是能真正理解项目架构、帮你从需求分析到代码落地的 AI 编码代理，支持终端、桌面应用、IDE 扩展等多种使用方式，还能对接国内外 75 + 种 LLM 模型，兼顾便捷性和代码隐私性。本文结合 OpenCode 官方文档和实际使用经验，用最通俗易懂的语言，从安装配置、核心操作、实战技巧、高级玩法四个维度，带你彻底玩转 OpenCode，不管是编程新手还是资深开发者，都能快速上手并提升开发效率！一、先搞懂：OpenCode 到底适合谁？有啥核心优势？ 1. 适用人群 * 编程新手：不用死记硬背语法，自然语言描述需求就能生成代码，快速入门； * 资深开发者：摆脱重复编码、重构老项目、

【硬核实战】手撸一个本地AI Agent：从零构建 “OpenClaw“ (Node.js + DeepSeek)

【硬核实战】手撸一个本地AI Agent：从零构建 “OpenClaw” (Node.js + DeepSeek) 摘要：最近 AI Agent（智能体）的概念火遍全网。与其做一个单纯的“调包侠”，不如亲自动手写一个！本文将带你从零开始，使用 Node.js 构建一个运行在本地的、拥有“系统操作权限”的 AI 助手 —— 我们将其命名为 OpenClaw。它不仅能陪你聊天，还能帮你执行终端命令、读写文件。关键词：AI Agent, Node.js, DeepSeek, OpenAI API, 本地部署, 自动化, Function Calling 1. 什么是 OpenClaw？为什么你需要一个本地 Agent？传统的

如何写好论文引言？一篇文章讲清楚结构、技巧与AI助力

引言写不好，整篇论文都站不稳。许多同学在论文写作时，最容易忽略的部分恰恰是最关键的“引言”。写得不清楚，导师和审稿人根本无法迅速抓住你的研究核心；写得不规范，不仅拉低整篇论文的学术表现力，还会让人觉得你不够“懂研究”。今天这篇文章，学境思源就帮你从结构、语言、写作技巧、案例模板到ChatGPT提示词辅助写作，一键生成论文初稿，系统讲清楚： 👉 什么是好引言？acaids.com如何一步步写出来？怎么用AI让它更高效？建议收藏+复盘，不论你是本科生、硕士生，还是要投稿SCI/核心期刊，都能用得上。 📌为什么引言写不好，论文就难及格？论文引言不仅是第一部分，更是整篇论文的“门面”。引言决定了你的研究“看起来值不值得一读”，也影响评审对你研究价值的第一印象。一个好的引言必须做到： 1. 引出问题（你研究的是哪类问题） 2. 聚焦空白（别人没解决的点在哪里） 3. 明确价值（你的研究为什么重要） 4. 点出目标（你这篇文章要做什么）