现在,不用摄像头,只靠WiFi就能“看到”一个人在房间里的全部动作了。
准确地说,是输入WiFi信号,就能输出一个3D人体姿态,也就是一个包含了关节或骨骼关键点,能够描述人行为动作(也就是姿态)的三维模型,就像是下面这样:
(资料图片仅供参考)
这项研究的论文于2022年12月31日发表在预印本网站Arxiv,作者则来自卡耐基梅隆大学的一个团队,他们表示,人体姿态的估计或识别在当下很多场景中都能用到(如自动驾驶、医疗救助等),但使用传统的摄像头、传感器或者雷达却存在难以保证隐私安全、成本限制等问题。
为了解决这些问题,团队便想到了现在几乎家家必备的WiFi,所要用到的设备为两个路由器,其核心原理也并不难——WiFi信号在遇到人体运动时会改变其传播路径,进而使得接收器收到的信号的相关数据产生不同程度的变化,通过分析这些变化的具体参数,就能实现人体感知。
不过,这种方式只能定位物体的中心,如果存在手机、微波炉等电磁干扰,定位精度也会下降。因此,研究团队构建了一种神经网络架构,可以通过WiFi中进行关键点较为密集的人体姿态估计。具体分为三步:
进行振幅和相位的“消毒”(Sanitization)操作,对原始WiFi信号中的关键数据进行清理;
将上述清理过的数据通过双分支的解码器-编码器网络转换为2D特征图;
将2D特征图通过改良后的DensePose-RCNN架构(一种人体姿态估计模型)转换为3D人体模型。
在最终生成模型的效果上,基于拍摄图像生成的三维人体模型与基于WiFi生成的模型相比,性能基本一致。
左:基于图像生成 右:基于WiFi生成
同时,通过对实验结果的数据分析,研究团队还发现,在基于拍摄图像生成的三维人体模型中,由于离摄像机较远的个体在图像中占据的空间较小,也导致了这些主体的信息较少,但在基于WiFi信号生成的结果中,由于WiFi信号包含了整个场景中的所有信息,所以不管主体的位置如何,最终生成的模型数据信息量都相差不大。
AP-m和AP-l两值差异较小,说明结果信息差异也较小。
当然,研究团队也承认,目前基于图像进行人体姿态估计的精度普遍比基于WiFi的方法要更高,他们所提出的新方法虽然在估计人体躯干的姿势方面表现良好,但在检测四肢等细节方面仍然存在困难。
AP指平均精确度,越高越好。
此次论文的一作二作皆为华人,在论文最后,研究者们表示,他们希望未来能收集更多数据拓展工作,使得WiFi设备能成为继RGB相机、激光雷达之后的另一更廉价、更能保护隐私的人体传感器。
编译:南都记者杨博雯