AI 视觉人体姿态关键点实时跟踪 Python 代码

前言

本文分享如何使用 MediaPipe 完成人体姿态关键点的实时跟踪检测。

1. 导入工具包

# 安装 opencv
pip install opencv-contrib-python
# 安装 mediapipe
pip install mediapipe
# pip install mediapipe --user  #有 user 报错的话试试这个
 
# 安装之后导入各个包
import cv2  #opencv
import mediapipe as mp
import time

人体姿态检测相关说明见官方文档：Pose - mediapipe (google.github.io) MediaPipe Pose 中的地标模型预测了 33 个姿势地标的位置。

2. 相关函数说明

从 mediapipe 中导入检测方法，使用 mediapipe.solutions.pose。

mediapipe.solutions.hands  # 手部关键点检测
mediapipe.solutions.pose   # 人体姿态检测
mediapipe.solutions.face_mesh  # 人脸网状检测
mediapipe.solutions.face_detection  # 人脸识别

（1）mediapipe.solutions.pose.Pose() 姿态关键点检测函数

参数：

static_image_mode：默认为 False，将输入图像视为视频流。它将尝试在第一张图像中检测最突出的人，并在成功检测后进一步定位姿势地标。在随后的图像中，它只是简单地跟踪那些地标，而不会调用另一个检测，直到失去对目标的跟踪，可以减少计算和延迟。若为 True，则会对每张输入图像执行人体检测方法，非常适合处理一批静态的、可能不相关的图像。
model_complexity：默认为 1，姿势地标模型的复杂度：0、1、2。地标准确度和推理延迟通常随着模型复杂度的增加而增加。
smooth_landmarks：默认为 True，平滑图像，过滤不同的输入图像上的姿势地标以减少抖动，但如果 static_image_mode 也设置为 True 则忽略。
upper_body_only：默认为 False，是否只检测上半身的地标。人体姿势共有 33 个地标，上半身的姿势地标有 25 个。
enable_segmentation：默认为 False。如果设置为 true，除了姿势地标之外，该解决方案还会生成分割掩码。
smooth_segmentation：默认为 True，过滤不同的输入图像上的分割掩码以减少抖动，但如果 enable_segmentation 设置为 False，或者 static_image_mode 设置为 True 则忽略。
min_detection_confidence：默认为 0.5，来自人员检测模型的最小置信值 (0-1 之间)，高于该阈值则认为检测视为成功。
min_tracking_confidence：默认为 0.5。来自地标跟踪模型的最小置信值 (0-1 之间)，用于将被视为成功跟踪的姿势地标，否则将在下一个输入图像上自动调用人物检测。将其设置为更高的值可以提高解决方案的稳健性，但代价是更高的延迟。如果 static_image_mode 为 True，则人员检测将在每帧图像上运行。

返回值：具有 "pose_landmarks" 字段的 NamedTuple 对象，其中包含检测到的最突出人物的姿势坐标。

（2）mediapipe.solutions.drawing_utils.draw_landmarks() 绘制关键点连线

import cv2 import mediapipe as mp import time # 导入姿态跟踪方法 mpPose = mp.solutions.pose # 姿态识别方法 pose = mpPose.Pose(static_image_mode=False, # 静态图模式，False 代表置信度高时继续跟踪，True 代表实时跟踪检测新的结果 #upper_body_only=False, # 是否只检测上半身 smooth_landmarks=True, # 平滑，一般为 True min_detection_confidence=0.5, # 检测置信度 min_tracking_confidence=0.5) # 跟踪置信度 # 检测置信度大于 0.5 代表检测到了，若此时跟踪置信度大于 0.5 就继续跟踪，小于就沿用上一次，避免一次又一次重复使用模型 # 导入绘图方法 mpDraw = mp.solutions.drawing_utils #（1）导入视频 filepath = 'C:\\GameDownload\\Deep Learning\\master.mp4' cap = cv2.VideoCapture(filepath) pTime = 0 # 设置第一帧开始处理的起始时间 #（2）处理每一帧图像 while True: # 接收图片是否导入成功、帧图像 success, img = cap.read() # 将导入的 BGR 格式图像转为 RGB 格式 imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 将图像传给姿态识别模型 results = pose.process(imgRGB) # 查看体态关键点坐标，返回 x,y,z,visibility # print(results.pose_landmarks) # 如果检测到体态就执行下面内容，没检测到就不执行 if results.pose_landmarks: # 绘制姿态坐标点，img 为画板，传入姿态点坐标，坐标连线 mpDraw.draw_landmarks(img, results.pose_landmarks, mpPose.POSE_CONNECTIONS) # 查看 FPS cTime = time.time() #处理完一帧图像的时间 fps = 1/(cTime-pTime) pTime = cTime #重置起始时间 # 在视频上显示 fps 信息，先转换成整数再变成字符串形式，文本显示坐标，文本字体，文本大小 cv2.putText(img, str(int(fps)), (70,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3) # 显示图像，输入窗口名及图像数据 cv2.imshow('image', img) if cv2.waitKey(10) & 0xFF==27: #每帧滞留 15 毫秒后消失，ESC 键退出 break # 释放视频资源 cap.release() cv2.destroyAllWindows()

import cv2 import mediapipe as mp import time # 导入姿态跟踪方法 mpPose = mp.solutions.pose # 姿态识别方法 pose = mpPose.Pose(static_image_mode=False, # 静态图模式，False 代表置信度高时继续跟踪，True 代表实时跟踪检测新的结果 #upper_body_only=False, # 是否只检测上半身 smooth_landmarks=True, # 平滑，一般为 True min_detection_confidence=0.5, # 检测置信度 min_tracking_confidence=0.5) # 跟踪置信度 # 检测置信度大于 0.5 代表检测到了，若此时跟踪置信度大于 0.5 就继续跟踪，小于就沿用上一次，避免一次又一次重复使用模型 # 导入绘图方法 mpDraw = mp.solutions.drawing_utils #（1）导入视频 filepath = 'C:\\GameDownload\\Deep Learning\\master.mp4' cap = cv2.VideoCapture(filepath) pTime = 0 # 设置第一帧开始处理的起始时间 #（2）处理每一帧图像 lmlist = [] # 存放人体关键点信息 while True: # 接收图片是否导入成功、帧图像 success, img = cap.read() # 将导入的 BGR 格式图像转为 RGB 格式 imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 将图像传给姿态识别模型 results = pose.process(imgRGB) # 查看体态关键点坐标，返回 x,y,z,visibility # print(results.pose_landmarks) # 如果检测到体态就执行下面内容，没检测到就不执行 if results.pose_landmarks: # 绘制姿态坐标点，img 为画板，传入姿态点坐标，坐标连线 mpDraw.draw_landmarks(img, results.pose_landmarks, mpPose.POSE_CONNECTIONS) # 获取 33 个人体关键点坐标，index 记录是第几个关键点 for index, lm in enumerate(results.pose_landmarks.landmark): # 保存每帧图像的宽、高、通道数 h, w, c = img.shape # 得到的关键点坐标 x/y/z/visibility 都是比例坐标，在 [0,1] 之间 # 转换为像素坐标 (cx,cy)，图像的实际长宽乘以比例，像素坐标一定是整数 cx, cy = int(lm.x * w), int(lm.y * h) # 打印坐标信息 print(index, cx, cy) # 保存坐标信息 lmlist.append((cx, cy)) # 在关键点上画圆圈，img 画板，以 (cx,cy) 为圆心，半径 5，颜色绿色，填充圆圈 cv2.circle(img, (cx,cy), 3, (0,255,0), cv2.FILLED) # 查看 FPS cTime = time.time() #处理完一帧图像的时间 fps = 1/(cTime-pTime) pTime = cTime #重置起始时间 # 在视频上显示 fps 信息，先转换成整数再变成字符串形式，文本显示坐标，文本字体，文本大小 cv2.putText(img, str(int(fps)), (70,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3) # 显示图像，输入窗口名及图像数据 cv2.imshow('image', img) if cv2.waitKey(10) & 0xFF==27: #每帧滞留 15 毫秒后消失，ESC 键退出 break # 释放视频资源 cap.release() cv2.destroyAllWindows()

AI 视觉人体姿态关键点实时跟踪 Python 代码

前言

1. 导入工具包

2. 相关函数说明

（1）mediapipe.solutions.pose.Pose() 姿态关键点检测函数

（2）mediapipe.solutions.drawing_utils.draw_landmarks() 绘制关键点连线

更多推荐文章

相关免费在线工具

3. 绘制关键点和连线

4. 保存坐标点信息，绘图编辑

更多推荐文章

相关免费在线工具

AI 视觉人体姿态关键点实时跟踪 Python 代码

前言

1. 导入工具包

2. 相关函数说明

（1）mediapipe.solutions.pose.Pose() 姿态关键点检测函数

（2）mediapipe.solutions.drawing_utils.draw_landmarks() 绘制关键点连线

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 绘制关键点和连线

4. 保存坐标点信息，绘图编辑

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具