【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

前言

本文主要介绍我最近开发的一个个人实战项目,“基于深度学习的人脸门禁+ IPC 智能安防监控系统”,全程满帧流畅运行。这个项目我目前全网搜了一圈,还没发现有相关类型的开源项目。这个项目只要稍微改进下,就可以变成市面上目前流行的三款产品,人脸识别门禁系统、IPC 安防和 NVR。在最下面会有视频演示。

本项目适用于瑞芯微 Rockchip 系列的板端,开源链接在文章最下面。

功能

人脸门禁系统

  • 人靠近自动亮屏,人走自动息屏
  • 支持人脸识别
  • 支持录入人脸,并进行人脸配对(极速配对 < 0.2S)

IPC 智能安防监控系统

  • 支持通过 onvif 实时查看摄像头画面
  • 支持实时目标检测(支持高达80种物体检测)
  • 支持录像
  • 支持检测到人时自动录像
  • 支持检测到人时自动报警

用到的硬件

1738765194618.jpg
  • 野火鲁班猫4 RK3588S2
  • IMX415 800W 4k 摄像头
  • RTL8822CE Wifi+BT
  • mipi LCD RGB 7寸 1024×600 触摸屏
  • 人体红外检测 SR501:通过 GPIO 读取相应数值,用于判断是否有人靠近
  • 128×32 OLED屏:通过 I2C 通信显示画面内容,用于显示人脸检测结果
  • 蓝牙音箱

用到的深度学习模型

  • yolo11:用于实时目标检测
  • retinaFace:用于人脸检测
  • facenet:用于人脸特征提取

模型需要经过转换和量化,并且进行精度评估,如果不知道如何在 Rockchip 平台进行模型转换的同学,可以参考我这篇文章:《瑞芯微 Rockchip 系列 RK3588 主流深度学习框架模型转成 rknn 模型教程》

用到的技术栈

  • C++
  • RKNN:用于在 Rockchip 上进行 NPU 推理
  • FFmpeg:用于音视频编解码,使用了 ffmpeg-rockchip 库进行 MPP 硬件编解码,提高编解码速度
  • Opencv:用于视频帧处理
  • LVGL:流行的 GUI 框架
  • Bluez-Alsa:用于连接蓝牙音箱并播放音频
  • Onvif:一个流行的 IP 摄像头协议标准,支持在电脑端直接查看摄像头画面,操作摄像头云台等等

线程架构图

这个项目涉及的线程较多,其中包含推理线程池、渲染线程、处理线程等待,使用了原子操作、锁、条件变量等解决了线程同步问题。

线程架构如下图所示:

image.png

如果不理解线程池概念的同学,可以参考我这篇文章:《C++ 线程池浅析》

项目演示

项目改进

由于是个人项目且时间有限,因此还存在很多可优化空间。

比如在人脸门禁系统中,可以有如下改进:

  • 加入 IR 摄像头,进行活体检测
  • 为人脸门禁系统加入 NFC 模块,支持通过 NFC 解锁
  • 为人脸门禁系统加入指纹模块,支持通过指纹解锁
  • 添加 mysql 数据库,将姓名、年龄、工号、人脸特征进行存储

而在 IPC 安防摄像头系统中,可以有如下改进:

  • 加入舵机云台,完善 onvif,支持远程控制云台转动
  • 对 yolo11 模型进行微调,加入摔倒识别、火焰识别、打架识别等等
  • 加入 IRCUT 滤光片,添加 IR 灯,实现日夜切换功能
  • 加入 webrtc,实现实时对话功能

https://github.com/qaz624824554/deep_learning_security_system

Read more

FaceFusion与主流框架对比:Stable Diffusion、DeepFaceLive谁更强?

FaceFusion、Stable Diffusion 与 DeepFaceLive:谁才是人脸生成的终极答案? 在虚拟主播一夜爆红、AI换脸视频席卷社交平台的今天,我们正站在一个人脸数字化的奇点上。无论是电影工业中悄然替换演员面孔,还是直播镜头里实时变身“数字分身”,背后都离不开几类关键技术的支撑。其中, FaceFusion 、 Stable Diffusion 和 DeepFaceLive 成为了开发者圈内热议的三大代表方案——它们看似都在“换脸”,实则走着截然不同的技术路线。 有人用 FaceFusion 精修每一帧影视画面,追求像素级的真实感;有人靠 Stable Diffusion 输入一句提示词就生成一张从未存在过的明星写真;还有人通过 DeepFaceLive 在直播中毫秒级切换身份,仿佛拥有无限人格面具。这三者究竟有何本质区别?当精度、创意与速度不可兼得时,又该如何抉择? 要理解这些工具的本质差异,得先看清楚它们解决的是哪一类问题。 FaceFusion 的目标很纯粹: 把A的脸,完美地贴到B的身体上,且看不出痕迹 。它不关心你想要什么风格,也不需要输入一段文

By Ne0inhk
【通义万相】蓝耘智算 | 开源视频生成新纪元:通义万相2.1模型部署与测评

【通义万相】蓝耘智算 | 开源视频生成新纪元:通义万相2.1模型部署与测评

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。 文章目录 * 前言 * 一、通义万相概述 * 二、通义万相功能介绍 * (一)静态图像生成 * (二)动态视频创作 * 三、基于蓝耘智算部署通义万相2.1 * (一)注册蓝耘智算平台账号 * (二)部署通义万相2.1 * (三)测试文生视频 * 四、未来发展 * 五、影响意义 * 小结 前言 2025年,当通义万相2.

By Ne0inhk
GitHub 64k Star 神器!OpenCode 5 分钟上手指南:开源免费,Claude Code 平替!

GitHub 64k Star 神器!OpenCode 5 分钟上手指南:开源免费,Claude Code 平替!

OpenCode,开源版 Claude Code。 6.4 万 GitHub Stars(昨天还是 6.1 万),100 万月活开发者,75+ 模型。 昨天写了 Anthropic 封杀第三方工具、OpenAI 主动开门的事。 今天出一篇 OpenCode 教程,5 分钟上手。 01|安装 三种方式,按需选择。 桌面客户端(新手推荐) 不习惯命令行?直接下载桌面版。 你可以理解为带 GUI 界面的 Claude Code,操作简单,新手友好。 打开 opencode.ai/download,macOS、Windows、Linux 版本都有。

By Ne0inhk