什么是人体姿态估计?
新视野
人体姿态估计定义
所谓人体姿态估计,是指从人体图像中提取出手臂、腿部、躯干和头部等骨骼关键点信息,并用这些信息重新组成2D或3D的人体骨架,又叫人体骨骼关键点检测。通俗地说就是“火柴人”的模样。
生活中的应用
作为机器视觉的重要分支,人体姿态估计在多个领域都有广泛应用。它可以用于体感游戏、运动健身、养老康复以及学生坐姿检测等方面。此外,该技术还可作为跌倒检测方案的后续应用,支持跌倒报警后的二次确认和事件回顾。
新的技术方向
目前人体姿态估计技术主要基于图片或摄像头视频。然而,由于摄像头涉及隐私问题,一些公司和开发人员近年来开始研究基于射频雷达的人体骨骼关键点检测技术。射频雷达传感器除了具有隐私保护的优势外,还提供了相比视觉传感器更好的适应性,能够应对光线、水雾等环境干扰。此外,射频雷达产生的数据量也远少于摄像头,因此对于算力要求更低,整体方案性价比更具竞争力。
目前基于射频雷达的
人体姿态估算进展
射频雷达目前主要应用是人员的跟踪、定位和基本的姿态分类,如跌倒、坐下或站立等动作,但随着射频雷达的性能,尤其是角分辨率的提升,结合人工智能算法的发展,为利用射频雷达提取有关人体的更丰富而详细的信息提供了可能。
麻省理工学院计算机科学与人工智能实验室在2018年就开发出了RF-Pose3D [1]系统,利用了卷积神经网络CNN从RF射频信号来提取人体完整的3D骨骼,包括头部,手臂,肩膀,臀部,腿部。为此,RF Pose3D采用了定制的大规模FMCW雷达系统,包括发射天线、两组接收阵列—包括水平和垂直两个角度共64根天线。
国内电子科大和中科大的研究人员在去年也提出了RFPose-OT[2]模型框架,以实现从无线射频信号中估计三维人体姿态。该系统采用了两个12发16收的FMCW雷达,分别工作于77GHz和79GHz频段,取得了比较好的人体姿态估算效果。
最近的研究热点是基于毫米波雷达的点云数据来进行人体姿态估算,但由于大部分采用毫米波雷达(比如77GHz 3发4收车载雷达)的天线数量比较少、角分辨率不高,点云数据稀疏、不稳定,所以实际的效果欠佳。
基于高分辨射频成像点云的
人体姿态估计
为了更好地探索高分辨成像雷达点云数据在人体姿态估算方面的可能性,万蕴Vayyar中国研发团队搭建和训练出了一套基于transformer神经网络模型的3D人体骨骼点检测应用算法。
该模型基于Vayyar一款已量产的24发22收毫米波成像模组的点云数据训练,拓展到了2.5Ghz的工作带宽,在距离、水平和垂直角度上都可以提供比较高分辨的、稳定的点云数据。
从以上的演示可以看出,算法对于每个人体目标可以输出15个骨骼点,每个骨骼点都有3D坐标输出和置信度输出,达到了比较好的效果。
万蕴Vayyar vBlu 24发22收射频成像模组
为了方便数据采集,万蕴Vayyar的本地团队也开发了一套自动化的点云数据采集和标注工具,结合利用3D深度相机系统进行辅助自动射频点云的标注。
目前,我们已经在技术层面验证了基于万蕴Vayyar高分辨射频雷达的点云数据实现人体姿态估算的可行性。接下来,我们计划扩大数据集,覆盖尽可能多的场景。我们欢迎有兴趣的合作伙伴加入我们,共同推动这项技术的商业化成熟。