当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 摔倒检测，基于骨骼点人体动作识别，部分代码用 Chatgpt 完成

摔倒检测，基于骨骼点人体动作识别，部分代码用 Chatgpt 完成

来源：51CTO.COM 2023-04-17 20:09:56 0浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《摔倒检测，基于骨骼点人体动作识别，部分代码用 Chatgpt 完成》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

哈喽，大家好。

今天给大家分享一个摔倒检测项目，准确地说是基于骨骼点的人体动作识别。

大概分为三个步骤

识别人体
识别人体骨骼点
动作分类

项目源码已经打包好了，获取方式见文末。

0. chatgpt

首先，我们需要获取监控的视频流。这段代码比较固定，我们可以直接让chatgpt完成

chatgpt写的这段代码是没有问题的，可以直接使用。

但后面涉及到业务型任务，比如：用mediapipe识别人体骨骼点，chatgpt给出的代码是不对的。

我觉得chatgpt可以作为一个工具箱，能独立于业务逻辑，都可以试着交给chatgpt完成。

所以，我觉得未来对程序员的要求会更加注重业务抽象的能力。扯远了，言归正传。

1. 人体识别

人体识别可以用目标检测模型，比如：YOLOv5，之前我们也分享过好多训练YOLOv5模型的文章。

但这里我没有用YOLOv5，而是用mediapipe。因为mediapipe运行速度更快，在 CPU 上也能流畅地运行。

2. 骨骼点识别

识别骨骼点的模型有很多，如：alphapose、openpose，每种模型识别出来的骨骼点个数和位置都有所差异。比如下面这两种：

mediapipe 32个骨骼点

coco 17个骨骼点

骨骼点的识别我仍然使用mediapipe，除了速度快，另一个优势是mediapipe识别的骨骼点多，有 32 个，能满足我们的使用。因为下面要用的人体动作分类，强依赖于骨骼点。

image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
results = pose.process(image)

if not results.pose_landmarks:
continue

# 识别人体骨骼点
image.flags.writeable = True
image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)

mp_drawing.draw_landmarks(
image,
results.pose_landmarks,
mp_pose.POSE_CONNECTIONS,
landmark_drawing_spec=mp_drawing_styles.get_default_pose_landmarks_style()
)

3. 动作识别

动作识别使用的是基于骨架动作识别的时空图卷积网络，开源方案是STGCN（Skeleton-Based Graph Convolutional Networks）

https://github.com/yysijie/st-gcn

一组动作，如：摔倒，由 N 帧组成，每一帧可以构造出以骨骼点坐标组成的空间图，骨骼点在帧之间连接起来就构成时间图，骨骼点的连接和时间帧的连接便可以构造一张时空图。

时空图

在时空图上进行多层图卷积运算，便可生成更高层次的特征图。然后输入到SoftMax分类器进行动作分类(Action Classification)。

图卷积

本来我打算训练STGCN模型的，但遇到的坑实在是太多了，最后直接用了别人训练好的模型。

坑1. STGCN 支持 OpenPose 识别的骨骼点，有数据集Kinetics-skeleton可以直接用。坑的地方在于OpenPose安装太麻烦，需要一堆步骤，挣扎后放弃。

坑2. STGCN 还支持 NTU RGB+D数据集，该数据集有 60 个动作分类，如：起立、行走、摔倒等。这份数据集的人体包含 25 个骨骼点，只有坐标数据，原始视频基本搞不到，所以没办法知道这 25 个骨骼点对应哪些位置，以及用什么模型能识别出这 25 个骨骼点，挣扎后放弃。

上面两个大坑，导致没法直接训练STGCN模型，找了一个开源的方案，它用的是alphapose识别 14 个骨骼点，同时修改STGCN源码支持自定义骨骼点。

https://github.com/GajuuzZ/Human-Falling-Detect-Tracks

我看了下mediapipe包含了这 14 个骨骼点，所以可以用mediapipe识别的骨骼点输入他的模型，实现动作分类。

mediapipe 32个骨骼点

选出14个关键骨骼点

14个骨骼点提取代码：

KEY_JOINTS = [
mp_pose.PoseLandmark.NOSE,
mp_pose.PoseLandmark.LEFT_SHOULDER,
mp_pose.PoseLandmark.RIGHT_SHOULDER,
mp_pose.PoseLandmark.LEFT_ELBOW,
mp_pose.PoseLandmark.RIGHT_ELBOW,
mp_pose.PoseLandmark.LEFT_WRIST,
mp_pose.PoseLandmark.RIGHT_WRIST,
mp_pose.PoseLandmark.LEFT_HIP,
mp_pose.PoseLandmark.RIGHT_HIP,
mp_pose.PoseLandmark.LEFT_KNEE,
mp_pose.PoseLandmark.RIGHT_KNEE,
mp_pose.PoseLandmark.LEFT_ANKLE,
mp_pose.PoseLandmark.RIGHT_ANKLE
]

landmarks = results.pose_landmarks.landmark
joints = np.array([[landmarks[joint].x * image_w,
landmarks[joint].y * image_h,
landmarks[joint].visibility]
 for joint in KEY_JOINTS])

STGCN原始方案构造的空间图只支持openpose18个骨骼点和NTU RGB+D数据集25个骨骼点