rk3588 MIPI采集 + OpenCV处理 + 硬件编码推流 + WebRTC低延迟播放 + 客户端保存视频

本人是第一次做摄像头推流相关的工作,一开始只是想简单做一个小工具。但是经过我几天的研究,发现网上的教程要么极其复杂,要么漏洞百出,导致我连最简单的推流都迟迟没做出来。

经过几天的极限折腾,我终于打通了 MIPI摄像头 -> 硬件ISP -> OpenCV(AI处理) -> 硬件H.264编码 -> 局域网WebRTC超低延迟推流与客户端录制 -> 客户端保存视频 的完整链路。今天把整套方案和踩过的深坑全盘托出,希望能帮大家少走弯路。

整体架构思路

主要功能使用python实现:

  1. 画面采集:使用 GStreamer 直接对接底层驱动,利用 RK3588 的硬件 ISP 把 MIPI RAW 数据转成彩色的缩小画面。
  2. opencv处理:OpenCV 拿到图片后,可以进行你想要的图像处理。
  3. 硬件编码推流:将处理后的画面交给 mpph264enc(瑞芯微硬件编码器)压缩,推给本机的流媒体服务器。
  4. 终端分发:使用极其轻量的 MediaMTX 作为流媒体服务器,客户端通过 WebRTC 协议实现网页端秒开与超低延迟观看。

第一步:环境准备

  1. 确认你的摄像头节点(比如单摄时是 /dev/video11)。

确保安装了带 GStreamer 支持的 OpenCV 和相关插件(注意pypi上的opencv默认不支持gstreamer,建议直接下载系统环境的opencv,或者手动编译):

sudoapt-get update sudoapt-getinstall python3-opencv sudoapt-getinstall gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugins-ugly gstreamer1.0-rtsp 

第二步:部署轻量级流媒体服务器 (MediaMTX)

注意:此服务器不是我们通常理解的网站服务器,我使用的设备只有板子和我的电脑。
建议在板子上跑服务器,这样客户端不需做任何配置

在 RK3588 上下载 ARM64 版本并运行:

wget https://github.com/bluenviron/mediamtx/releases/download/v1.16.1/mediamtx_v1.16.1_linux_arm64.tar.gz tar -zxvf mediamtx_v1.16.1_linux_arm64.tar.gz ./mediamtx 

你应该能看到以下输出

cat@lubancat:~/Downloads$ ./mediamtx 2026/02/21 15:07:07 INF MediaMTX v1.16.1, linux, arm64 2026/02/21 15:07:07 INF configuration loaded from /home/cat/Downloads/mediamtx.yml 2026/02/21 15:07:07 INF [RTSP] listener opened on :8554 (TCP/RTSP), :8000 (UDP/RTP), :8001 (UDP/RTCP) 2026/02/21 15:07:07 INF [RTMP] listener opened on :1935 2026/02/21 15:07:07 INF [HLS] listener opened on :8888 2026/02/21 15:07:07 INF [WebRTC] listener opened on :8889 (HTTP), :8189 (ICE/UDP) 2026/02/21 15:07:07 INF [SRT] listener opened on :8890 (UDP) 

(保持此终端不关,另外打开新的终端)

第三步:核心 Python 脚本(rtsp推流与处理)

新建一个 Python 脚本 stream.py。这段代码包含了降分辨率防缓存延迟调用 MPP 硬件编码的核心参数。

import cv2 import time classFPSCounter:"""FPS counter class"""def__init__(self, buffer_size=20): self.timestamps =[] self.buffer_size = buffer_size defupdate(self):"""Update FPS count""" current_time = time.time() self.timestamps.append(current_time)# Keep only recent timestampsiflen(self.timestamps)> self.buffer_size: self.timestamps.pop(0)defget_fps(self):"""Calculate current FPS"""iflen(self.timestamps)<2:return0.0 time_span = self.timestamps[-1]- self.timestamps[0]if time_span <=0:return0.0return(len(self.timestamps)-1)/ time_span # 1. 配置读取摄像头的 GStreamer Pipeline (根据你的MIPI摄像头节点调整,这里假设是 /dev/video11)# 强制设定分辨率和帧率,并转换为BGR格式给OpenCV处理 cap_pipeline =("v4l2src device=/dev/video11 io-mode=2 ! ""video/x-raw, width=640, height=480, framerate=30/1, format=NV12 ! "# 可以选择你想要的图像大小"videoconvert ! video/x-raw, format=BGR ! ""appsink"# 可选:max-buffers=1 drop=true -> 强制丢弃旧画面,永远只读最新帧!)# 2. 配置推流的 GStreamer Pipeline# appsrc接收OpenCV的BGR图像,转为NV12,交给mpph264enc硬编,然后推流给MediaMTX push_pipeline =("appsrc is-live=true ! ""video/x-raw, format=BGR, width=640, height=480, framerate=30/1 ! ""videoconvert ! video/x-raw, format=NV12 ! ""mpph264enc bps=4000000 rc-mode=vbr ! ""h264parse ! ""rtspclientsink location=rtsp://127.0.0.1:8554/live protocols=tcp"# 可选:sync=false -> 不用帧同步)# 初始化视频读取 cap = cv2.VideoCapture(cap_pipeline, cv2.CAP_GSTREAMER)ifnot cap.isOpened():print("错误:无法打开 MIPI 摄像头。请检查节点和 ISP 状态。") exit()# 初始化视频推流器 out = cv2.VideoWriter(push_pipeline, cv2.CAP_GSTREAMER,0,30,(640,480))ifnot out.isOpened():print("错误:无法初始化 GStreamer 推流器。") exit()print("成功启动采集和推流,按 'Ctrl+C' 停止。")try: fps_counter = FPSCounter()whileTrue: ret, frame = cap.read()ifnot ret:print("未能读取到画面")break# ==========================================# ★ 在这里加入你的 AI 推理代码 ★# ==========================================# 例如:# results = rknn_model.inference(frame)# frame = draw_bounding_boxes(frame, results) fps_counter.update() fps = fps_counter.get_fps()# 作为演示,我们在这里加上时间戳和fps cv2.putText(frame,f"Time: {time.ctime()}",(30,50), cv2.FONT_HERSHEY_SIMPLEX,1,(0,0,255),1) cv2.putText(frame,f"Fps: {fps}",(30,100), cv2.FONT_HERSHEY_SIMPLEX,1,(0,0,255),1)# ==========================================# 将画好框的处理后图像,写入推流管道(由mpp硬件编码) out.write(frame)except KeyboardInterrupt:print("停止推流...")finally: cap.release() out.release()

运行脚本:python3 stream.py

第四步:如何在客户端观看与保存?

此时,你的 RK3588 已经变成了一个的 IP 摄像头。假设你的板子局域网 IP 是 192.168.0.137

** 1. 低延迟观看(网页直开)**
直接在电脑/手机浏览器里输入:👉 http://192.168.0.137:8889/live (这里的端口号在之前MediaMTX的输出中能看到)
利用 WebRTC 协议,延迟基本在百毫秒以内。

在这里插入图片描述

** 2. 在客户端无损录像(不需板端CPU占用)**
想要在电脑上把刚才的监控视频存下来?只需要一行命令,直接将底层编好的 H.264 流封装成文件,完全不消耗客户端算力:
在电脑上安装ffmpeg(windows / linux / mac均可),运行:

ffmpeg -rtsp_transport tcp -i rtsp://192.168.0.137:8554/live -c copy -f mp4 record_video.mp4 # 注意这里的端口号选的是8554(rtsp)

cpu占用与延迟

以下是纯推流,基本没有图像处理的资源消耗。

cpu占用(htop)


延迟的话,体感上在1秒以内,没准确测过。
所以实际上还有很大的优化空间

避坑指南

分享几个过程中最容易卡住的问题:

  1. 使用gstreamer无法打开摄像头
    • 原因:RK3588 的 V4L2 驱动在处理 MIPI 摄像头和 ISP 内存时,默认的 mmap 内存映射方式有时候在 GStreamer 中会引发异常(特别是在申请 buffer 时)
    • 解法:给 v4l2src 加上 io-mode=4(使用 DMABUF)或 io-mode=2(USERPTR)往往能瞬间解决问题。
  2. MediaMTX报错 invalid rtmp version (71)
    • 原因:进错端口了!用 HTTP 浏览器去访问了 1935 (RTMP) 或 8554 (RTSP) 端口。
    • 解法:浏览器观看必须要访问 8889 端口。
  3. 推流成功了,但是画面全是“纯绿色”的
    • 原因:OpenCV 推入的画面分辨率和推流器配置的分辨率不匹配,导致内存错位;或者忘记启动 rkaiq ISP 服务导致画面全是空数据。
    • 解法:严格检查 cap_pipelinecv2.VideoWriterpush_pipeline 三个地方的分辨率参数是否完全一致。
  4. 延迟越来越大,跑久了像看回放
    • 原因:加入 AI 推理后处理速度跟不上采集速度,OpenCV 把旧画面全缓存在了内存里。
    • 解法:务必在读取管道末尾加上 appsink max-buffers=1 drop=true

小贴士

我们直接传图像到pc端之所以会卡,只是因为图像没有经过压缩,网络传输速度不够。如果只是单纯想流畅的观看调试图像,可以直接用opencv自带的编码函数:

# 编码为 JPEG 格式 success, encoded_img = cv2.imencode(".jpg", img) 

然后再通过flask之类的框架进行网络传输,好处是简单直接方便,只是性能不高。

Read more

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧 本文围绕 LLaMA-2 与 Mixtral 两大模型的提示词调优展开,先分析二者核心特性,再针对性给出适配原则与实战技巧。LLaMA-2 因参数规模差异大、通用领域训练数据为主、指令敏感度低,需按参数分层设计提示词、补充领域知识、强化指令约束,还提供了结构化指令、Few-Shot 示例等 5 个实战技巧;Mixtral 凭借混合专家架构、长上下文窗口、强多语言能力,需引导激活对应专家模块、合理处理长文本、规范多语言输出,配套专家引导指令等 4 个技巧。文章还对比二者调优重点与适用场景,指出常见误区并给出避坑方案,最后总结核心思路并提供后续实践建议,助力开发者优化提示词、发挥模型性能。 人工智能专栏介绍     人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库,把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。

VSCode Github Copilot使用OpenAI兼容的自定义模型方法

VSCode Github Copilot使用OpenAI兼容的自定义模型方法

背景 VSCode 1.105.0发布了,但是用户最期待的Copilot功能却没更新!!! (Github Copilot Chat 中使用OpenAI兼容的自定义模型。) 🔥官方也关闭了Issue,并且做了回复,并表示未来也不会更新这个功能: “实际上,这个功能在可预见的未来只面向内部人员开放,作为一种“高级”实验功能。是否实现特定模型提供者的功能,我们交由扩展作者自行决定。仅限内部人员使用可以让我们快速推进,并提供一种可能并非始终百分之百完善,但能够持续改进并快速修复 bug 的体验。如果这个功能对你很重要,我建议切换到内部版本 insider。” 🤗 官方解决方案:安装VSCode扩展支持 你们完全不用担心只需要在 VS Code 中安装扩展:OAI Compatible Provider for Copilot 通过任何兼容 OpenAI 的提供商驱动的 GitHub Copilot Chat,使用前沿开源大模型,如 Kimi K2、DeepSeek

从 Copilot 到工程化 Agent 执行框架:基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

从 Copilot 到工程化 Agent 执行框架:基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

引言:AI Coding 进入规范驱动自动化时代         当前,许多开发者在使用 AI 编程助手时正普遍面临—个痛点:在处理大型项目时, AI 似乎会“遗忘”上下文,导致代码回归、引入新 Bug 或生成不符合项目规范的混乱代码。正如研发同学反复出现的挫败感:  “代码库越大, AI 弄得越乱”。         这种被称为“Vibe Coding”的模式,是 AI 辅助工程必要的、但也是原始的第—步。它更像—种不可预测的艺术,而非可重复、可扩展的科学。要真正释放 AI 的生产力,我们必须迎来—次范式的进化:从凭感觉的“Vibe Coding” ,转向由规范驱动的(Spec-Driven Development)专业化 AI 工程新范式。         本文将深入探讨如何将强大的

Midjourney官网地址是哪个?有没有中文官网?

Midjourney官网地址是哪个?有没有中文官网?

作为AI绘画领域的明星工具,Midjourney凭借其强大的图像生成能力风靡全球。许多用户初次接触时,最常问的问题便是:Midjourney的官网地址是什么?是否有中文官网? 一、Midjourney官网入口 Midjourney的唯一官方访问地址为: 👉 https://www.midjourney.com         需要注意的是,Midjourney的核心服务基于Discord平台运行。用户需先注册Discord账号,通过官网引导加入Midjourney频道,重要的是中文用户需要魔法才能使用官方MJ绘画功能。官网主要提供功能说明、订阅计划、作品展示等基础信息。 二、中文用户如何快速上手?         目前Midjourney尚未推出中文官网,且操作界面以英文为主。对于不熟悉Discord或英文界面的用户,可通过以下方式降低使用门槛: 1. 浏览器翻译插件(如谷歌翻译)辅助阅读 2. 参考中文社区教程(知乎、B站等平台有大量指南) 3. 使用第三方API服务——例如 OpenXS Midjourney API,提供全中文文档和本地化技术支