【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

Ne0inhk

26 Mar 2026 — 4 min read

前言

本文主要介绍我最近开发的一个个人实战项目，“基于深度学习的人脸门禁+ IPC 智能安防监控系统”，全程满帧流畅运行。这个项目我目前全网搜了一圈，还没发现有相关类型的开源项目。这个项目只要稍微改进下，就可以变成市面上目前流行的三款产品，人脸识别门禁系统、IPC 安防和 NVR。在最下面会有视频演示。

本项目适用于瑞芯微 Rockchip 系列的板端，开源链接在文章最下面。

功能

人脸门禁系统

人靠近自动亮屏，人走自动息屏
支持人脸识别
支持录入人脸，并进行人脸配对（极速配对 < 0.2S）

IPC 智能安防监控系统

支持通过 onvif 实时查看摄像头画面
支持实时目标检测（支持高达80种物体检测）
支持录像
支持检测到人时自动录像
支持检测到人时自动报警

用到的硬件

野火鲁班猫4 RK3588S2
IMX415 800W 4k 摄像头
RTL8822CE Wifi+BT
mipi LCD RGB 7寸 1024×600 触摸屏
人体红外检测 SR501：通过 GPIO 读取相应数值，用于判断是否有人靠近
128×32 OLED屏：通过 I2C 通信显示画面内容，用于显示人脸检测结果
蓝牙音箱

用到的深度学习模型

yolo11：用于实时目标检测
retinaFace：用于人脸检测
facenet：用于人脸特征提取

模型需要经过转换和量化，并且进行精度评估，如果不知道如何在 Rockchip 平台进行模型转换的同学，可以参考我这篇文章：《瑞芯微 Rockchip 系列 RK3588 主流深度学习框架模型转成 rknn 模型教程》

用到的技术栈

C++
RKNN：用于在 Rockchip 上进行 NPU 推理
FFmpeg：用于音视频编解码，使用了 ffmpeg-rockchip 库进行 MPP 硬件编解码，提高编解码速度
Opencv：用于视频帧处理
LVGL：流行的 GUI 框架
Bluez-Alsa：用于连接蓝牙音箱并播放音频
Onvif：一个流行的 IP 摄像头协议标准，支持在电脑端直接查看摄像头画面，操作摄像头云台等等

线程架构图

这个项目涉及的线程较多，其中包含推理线程池、渲染线程、处理线程等待，使用了原子操作、锁、条件变量等解决了线程同步问题。

线程架构如下图所示：

如果不理解线程池概念的同学，可以参考我这篇文章：《C++ 线程池浅析》

项目演示

项目改进

由于是个人项目且时间有限，因此还存在很多可优化空间。

比如在人脸门禁系统中，可以有如下改进：

加入 IR 摄像头，进行活体检测
为人脸门禁系统加入 NFC 模块，支持通过 NFC 解锁
为人脸门禁系统加入指纹模块，支持通过指纹解锁
添加 mysql 数据库，将姓名、年龄、工号、人脸特征进行存储
…

而在 IPC 安防摄像头系统中，可以有如下改进：

加入舵机云台，完善 onvif，支持远程控制云台转动
对 yolo11 模型进行微调，加入摔倒识别、火焰识别、打架识别等等
加入 IRCUT 滤光片，添加 IR 灯，实现日夜切换功能
加入 webrtc，实现实时对话功能
…

https://github.com/qaz624824554/deep_learning_security_system

关闭VSCode的GitHub Copilot功能

解决方法： 1. 卸载VSCode自带的Github Copilot插件，在已安装的插件列表中选择卸载。打开Setting，搜索github，勾选"Chat:Disable AI Features"选项。

FaceFusion与主流框架对比：Stable Diffusion、DeepFaceLive谁更强？

FaceFusion、Stable Diffusion 与 DeepFaceLive：谁才是人脸生成的终极答案？在虚拟主播一夜爆红、AI换脸视频席卷社交平台的今天，我们正站在一个人脸数字化的奇点上。无论是电影工业中悄然替换演员面孔，还是直播镜头里实时变身“数字分身”，背后都离不开几类关键技术的支撑。其中， FaceFusion 、 Stable Diffusion 和 DeepFaceLive 成为了开发者圈内热议的三大代表方案——它们看似都在“换脸”，实则走着截然不同的技术路线。有人用 FaceFusion 精修每一帧影视画面，追求像素级的真实感；有人靠 Stable Diffusion 输入一句提示词就生成一张从未存在过的明星写真；还有人通过 DeepFaceLive 在直播中毫秒级切换身份，仿佛拥有无限人格面具。这三者究竟有何本质区别？当精度、创意与速度不可兼得时，又该如何抉择？要理解这些工具的本质差异，得先看清楚它们解决的是哪一类问题。 FaceFusion 的目标很纯粹：把A的脸，完美地贴到B的身体上，且看不出痕迹。它不关心你想要什么风格，也不需要输入一段文

【通义万相】蓝耘智算 | 开源视频生成新纪元：通义万相2.1模型部署与测评

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录 * 前言 * 一、通义万相概述 * 二、通义万相功能介绍 * （一）静态图像生成 * （二）动态视频创作 * 三、基于蓝耘智算部署通义万相2.1 * （一）注册蓝耘智算平台账号 * （二）部署通义万相2.1 * （三）测试文生视频 * 四、未来发展 * 五、影响意义 * 小结前言 2025年，当通义万相2.

GitHub 64k Star 神器！OpenCode 5 分钟上手指南：开源免费，Claude Code 平替！

OpenCode，开源版 Claude Code。 6.4 万 GitHub Stars（昨天还是 6.1 万），100 万月活开发者，75+ 模型。昨天写了 Anthropic 封杀第三方工具、OpenAI 主动开门的事。今天出一篇 OpenCode 教程，5 分钟上手。 01｜安装三种方式，按需选择。桌面客户端（新手推荐）不习惯命令行？直接下载桌面版。你可以理解为带 GUI 界面的 Claude Code，操作简单，新手友好。打开 opencode.ai/download，macOS、Windows、Linux 版本都有。

前言

功能