MediaPipe 与 ROS 集成：机器人动作交互系统部署实战 | 极客日志

PythonAI算法

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

基于 MediaPipe Pose 与 ROS 构建机器人动作交互系统。方案采用 CPU 本地部署，无需云端依赖，实现 33 点人体姿态实时检测。通过自定义 ROS Node 订阅摄像头数据，发布标准化骨架消息，并结合 WebUI 可视化。集成动作识别逻辑，支持抬手等指令控制机器人运动，适用于边缘计算与人机交互场景。

黑客发布于 2026/4/9更新于 2026/7/1827 浏览

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

1. 引言

1.1 学习目标

我们将从零开始构建一个基于 MediaPipe 的人体骨骼关键点检测系统，并将其与 ROS（Robot Operating System） 集成，实现机器人对人体动作的实时感知与响应。最终你将掌握：

如何部署本地化、高精度的人体姿态估计服务
如何通过 WebUI 实现可视化交互
如何将关键点数据接入 ROS 系统
如何设计简单的动作映射逻辑驱动机器人行为

本教程适用于机器人控制、人机交互、智能硬件开发等场景，特别适合希望在边缘设备上实现低延迟动作识别的开发者。

1.2 前置知识

建议具备以下基础：

Python 编程能力
基础 Linux 操作命令
ROS 基本概念（Node、Topic、Message）
OpenCV 和图像处理基础知识

1.3 方案优势

不同于依赖云端 API 或 GPU 推理的服务，本方案完全运行于 CPU，环境轻量、稳定性强、无网络依赖，非常适合嵌入式机器人系统的长期部署。同时结合 ROS 提供强大的模块化扩展能力，是构建'视觉驱动'机器人应用的理想起点。

2. MediaPipe Pose 核心功能详解

2.1 技术原理概述

MediaPipe 是 Google 开发的一套跨平台机器学习流水线框架，其中 MediaPipe Pose 模块专用于人体姿态估计任务。它采用两阶段检测架构：

人体检测器（BlazePose Detector）：快速定位图像中的人体区域。
姿态回归模型（Pose Landmark Model）：对裁剪后的人体区域进行精细分析，输出 33 个标准化的 3D 关键点坐标。

这些关键点覆盖了头部、躯干和四肢的主要关节，包括鼻尖、眼睛、肩膀、手肘、手腕、髋部、膝盖、脚踝等，形成完整的人体骨架表示。

技术优势总结：

33 个 3D 关键点输出：不仅提供 (x, y) 像素坐标，还包括深度 z 和可见性 visibility

CPU 友好型设计：使用轻量化神经网络结构，在普通 x86 或 ARM CPU 上可达 30+ FPS

端到端本地运行：无需联网请求，保护用户隐私，避免 Token 失效等问题

2.2 输出关键点说明

类别	包含关节点示例
面部	鼻子、左/右眼、左/右耳
上肢	肩膀、手肘、手腕、拇指、食指、中指
躯干	左右髋、脊柱、胸骨
下肢	膝盖、脚踝、脚跟、脚尖

所有关键点以归一化坐标形式返回（范围 [0,1]），便于适配不同分辨率的输入图像。

3. 环境部署与 WebUI 使用

3.1 启动本地服务

本项目支持 Docker 容器化部署，方便隔离环境：

拉取或构建包含 MediaPipe 环境的镜像
启动实例并配置端口映射
通过浏览器访问 HTTP 服务地址（通常为 http://<your-ip>:8080）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[Camera] ↓ (raw image) [MediaPipe Node] → 检测关键点 → 发布 /skeleton_pose Topic ↓ (visualization) [WebUI Server] ↓ (pose data) [ROS Master] ← 其他 Nodes（如 Motion Planner）

cd ~/catkin_ws/src
catkin_create_pkg mediapipe_ros rospy cv_bridge sensor_msgs geometry_msgs
cd ..
catkin_make

#!/usr/bin/env python
import rospy
import cv2
import numpy as np
from cv_bridge import CvBridge
from sensor_msgs.msg import Image
from geometry_msgs.msg import PointStamped, Vector3
from std_msgs.msg import Header, String
import mediapipe as mp
import json

class PoseEstimator:
    def __init__(self):
        self.bridge = CvBridge()
        self.mp_pose = mp.solutions.pose
        self.pose = self.mp_pose.Pose(
            static_image_mode=False,
            model_complexity=1,  # 平衡速度与精度
            enable_segmentation=False,
            min_detection_confidence=0.5,
            min_tracking_confidence=0.5
        )
        # Subscribers
        self.image_sub = rospy.Subscriber("/camera/image_raw", Image, self.image_callback)
        # Publishers
        self.keypoint_pub = rospy.Publisher("/skeleton_pose", PointStamped, queue_size=10)
        self.skeleton_pub = rospy.Publisher("/full_skeleton", String, queue_size=10)
        rospy.loginfo("Pose Estimator Node Initialized")

    def image_callback(self, msg):
        try:
            cv_image = self.bridge.imgmsg_to_cv2(msg, "bgr8")
        except Exception as e:
            rospy.logerr(f"Image conversion error: {e}")
            return

        rgb_image = cv2.cvtColor(cv_image, cv2.COLOR_BGR2RGB)
        results = self.pose.process(rgb_image)

        if results.pose_landmarks:
            h, w, _ = cv_image.shape
            keypoints = []
            for i, landmark in enumerate(results.pose_landmarks.landmark):
                px = int(landmark.x * w)
                py = int(landmark.y * h)
                pz = landmark.z * w  # 相对深度
                vis = landmark.visibility

                # 发布每个关键点（示例：仅发布鼻子）
                if i == 0:  # 鼻子索引为 0
                    point_msg = PointStamped()
                    point_msg.header = Header(stamp=rospy.Time.now(), frame_id="camera_link")
                    point_msg.point.x = px
                    point_msg.point.y = py
                    point_msg.point.z = pz
                    self.keypoint_pub.publish(point_msg)

                keypoints.append({
                    "id": i,
                    "x": px,
                    "y": py,
                    "z": pz,
                    "visibility": float(vis)
                })

            # 发布完整骨架（JSON 字符串格式）
            skeleton_str = json.dumps(keypoints)
            str_msg = String()
            str_msg.data = skeleton_str
            self.skeleton_pub.publish(str_msg)

            # 绘制骨架（可选：回传给 WebUI）
            mp.solutions.drawing_utils.draw_landmarks(
                cv_image, results.pose_landmarks, self.mp_pose.POSE_CONNECTIONS)

            # 可视化反馈（调试用）
            cv2.imshow("MediaPipe Pose", cv_image)
            cv2.waitKey(1)

if __name__ == '__main__':
    rospy.init_node('mediapipe_pose_node', anonymous=True)
    node = PoseEstimator()
    rospy.spin()

pip install mediapipe opencv-python rospy cv_bridge

chmod +x pose_estimator.py
roscore &
rosrun mediapipe_ros pose_estimator.py

rostopic echo /skeleton_pose

header:
  seq: 123
  stamp:
    secs: 1712345678
    nsecs: 901234567
  frame_id: "camera_link"
point:
  x: 320.0
  y: 180.0
  z: 45.2

def is_hand_raised(landmarks):
    """判断右手是否举起"""
    shoulder_y = landmarks[12]['y']  # 右肩
    wrist_y = landmarks[16]['y']     # 右手腕
    return wrist_y < shoulder_y       # 手腕高于肩膀即视为举起

from geometry_msgs.msg import Twist

class RobotController:
    def __init__(self):
        self.cmd_pub = rospy.Publisher('/cmd_vel', Twist, queue_size=10)

    def move_forward(self):
        twist = Twist()
        twist.linear.x = 0.2  # 前进速度
        self.cmd_pub.publish(twist)

if is_hand_raised(keypoints):
    controller.move_forward()

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

1. 引言

1.1 学习目标

1.2 前置知识

1.3 方案优势

2. MediaPipe Pose 核心功能详解

2.1 技术原理概述

2.2 输出关键点说明

3. 环境部署与 WebUI 使用

3.1 启动本地服务

更多推荐文章

相关免费在线工具

3.2 WebUI 功能操作指南

4. ROS 系统集成实践

4.1 架构设计思路

4.2 创建 ROS Package

4.3 关键代码实现

核心节点：`pose_estimator.py`

4.4 编译与运行

4.5 数据订阅测试

5. 动作识别与机器人控制联动

5.1 简单动作判断逻辑

5.2 控制机器人移动示例

6. 总结

6.1 实践经验总结

6.2 最佳实践建议

更多推荐文章

相关免费在线工具

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

MediaPipe 与 ROS 集成：机器人动作交互系统部署实战

1. 引言

1.1 学习目标

1.2 前置知识

1.3 方案优势

2. MediaPipe Pose 核心功能详解

2.1 技术原理概述

2.2 输出关键点说明

3. 环境部署与 WebUI 使用

3.1 启动本地服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 WebUI 功能操作指南

4. ROS 系统集成实践

4.1 架构设计思路

4.2 创建 ROS Package

4.3 关键代码实现

核心节点：pose_estimator.py

4.4 编译与运行

4.5 数据订阅测试

5. 动作识别与机器人控制联动

5.1 简单动作判断逻辑

5.2 控制机器人移动示例

6. 总结

6.1 实践经验总结

6.2 最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心节点：`pose_estimator.py`