【ECCV 2024】首个跨模态步态识别框架：Camera-LiDAR Cross-modality Gait Recognition

简介：
主要方法：
实验结果：

论文：https://arxiv.org/abs/2407.02038

简介：

步态识别是一种重要的生物特征识别技术。基于相机的步态识别已广泛应用于研究和工业领域。由于3D结构信息的提供，基于激光雷达的步态识别最近也开始发展。

在这里插入图片描述
然而，在某些应用程序中，相机不能识别人，如在低光环境和长距离识别场景中，激光雷达工作得很好。另一方面，激光雷达系统的部署成本和复杂性限制了其更广泛的应用。因此，在更广泛的应用中，考虑照相机和激光雷达之间的跨模态步态识别是非常必要的。

在这项工作中，我们提出了在相机和激光雷达之间的第一个跨模态步态识别框架，即CL-Gait。它采用了一个双流网络来对两种模式进行特征嵌入。由于3D和2D数据之间的固有匹配，表现出显著的模态差异，这是一个具有挑战性的识别任务。为了对齐两种模式的特征空间，即相机轮廓和激光雷达点，我们提出了一种对比的预训练策略来减轻模式差异。为了弥补预训练中缺乏配对的摄像机-激光雷达数据的不足，我们还引入了一种大规模生成数据的策略。该策略利用从单个RGB图像和虚拟摄像机中估计的单眼深度来生成伪点云，用于对比预训练。大量的实验表明，跨模态步态识别非常具有挑战性，但仍具有我们提出的模型和训练前策略的潜力和可行性。据我们所知，这是第一个解决跨模态步态识别的工作。

在这里插入图片描述

主要方法：

在这项工作中，我们提出用于相CL-Gait 机和激光雷达之间的跨模态步态识别。CL-Gait 采用双流网络进行跨模态特征嵌入。该网络利用浅层模式特定模块，较深层模式共享模块，如图所示。

在这里插入图片描述

此外，CL-Gait采用对比学习策略对齐两种模态的特征空间，减轻模态差异，如图所示。

在这里插入图片描述
根据我们在步态识别任务中的观察，三维点云和二维图像之间的显著模态差异可能是影响模型性能的关键因素。具体来说，点云更多地关注于身体部位的三维定位，而图像则集中于个体的轮廓信息。在每个模态所关注的不同信息之间建立联系是至关重要的。受CLIP [30]的启发，我们提出了一种对比的剪影点预训练（CSPP）策略，在基于卷积的编码器中对齐两种模式的特征空间，如图3所示。训练前的过程不需要来自样本中的标识标签来进行监督。在对齐摄像机和激光雷达的成对单视图数据上进行训练后，预训练可以使模型专注于学习一个鲁棒表示，在没有直接基于身份的指导的情况下弥补模态之间的差距，并提高跨模态网络的性能。

利用预训练得到的主干来初始化跨模态嵌入网络。为了便于对大规模数据进行预训练，我们还提出了一种生成跨模态步态数据的方法，如图所示。

在这里插入图片描述
这是由于获取成对RGB和点云数据的成本高，对真实和大规模数据进行预训练具有挑战性。为了解决这个问题，我们提出了一种基于单眼深度估计的伪数据生成方法。如图所示，我们使用深度的任何东西从大规模的单个RGB图像中估计密集的深度D∈RH×W。然后，利用一个具有内参K的虚拟相机通过体素网格降采样，可以用于摄像机轮廓和激光雷达点云之间的对比预训练。具体来说，将降采样点向下投影回图像像素坐标中，获得深度图像进行对比预训练。与点云相比，RGB图像的收集成本更低，也更容易获取，因为已经有许多行人图像的公共数据集可用。我们提出的方法使合成大规模数据进行对比预训练成为可能。