CVPR2017文章摘要
这篇博客翻译了CVPR2017中,Re-ID和tracking的相关论文摘要。
-
Re-IDentification
- Learning Deep Context-Aware Features Over Body and Latent Parts for Person Re-IDentification
- Beyond Triplet Loss: A Deep Quadruplet Network for Person Re-IDentification
- Spindle Net: Person Re-IDentification With Human Body Region Guided Feature Decomposition and Fusion
- Re-Ranking Person Re-IDentification With k-Reciprocal Encoding
- Person Re-IDentification in the Wild
- Scalable Person Re-IDentification on Supervised Smoothed Manifold
- One-Shot Metric Learning for Person Re-IDentification
- Joint Detection and Identification Feature Learning for Person Search
- Multiple People Tracking by Lifted Multicut and Person Re-IDentification
- Point to Set Similarity Based Deep Feature Learning for Person Re-IDentification
- Fast Person Re-IDentification via Cross-Camera Semantic Binary Transformation
- See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-Based Person Re-Identification
- Consistent-Aware Deep Learning for Person Re-Identification in a Camera Network
- Unsupervised Adaptive Re-Identification in Open World Dynamic Camera Networks
Re-IDentification
Learning Deep Context-Aware Features Over Body and Latent Parts for Person Re-IDentification
多尺度,Context-Aware的网络来学习人身体的特征。提出了有着空间限制的空间变换网络(STN)来定位形变的路人身体。通过全身和身体的部分的最终组合,一个统一的框架可以用来进行多类的重识别。
Beyond Triplet Loss: A Deep Quadruplet Network for Person Re-IDentification
传统的三元组损失函数在训练集上可以得到一个好的排序,但是仍然有比较弱的泛化性能。这篇文章中的四元组损失可以比三元组损失得到一个更大的类间差距,更小的类内差距。特别地,四元组深度网络还使用了基于边缘的在线难例挖掘。
Spindle Net: Person Re-IDentification With Human Body Region Guided Feature Decomposition and Fusion
Spindle Net是基于人体区域指导的多级特征分解和树结构的竞争性特征融合。这是首次人体的结构信息被考虑加入CNN之中。有以下优点:(1)从身体的不同区域分别提取语义信息,使得不同尺度特征可以对齐。(2)不同语义区域提取出的特征被用一种竞争性的方法合并起来,可以保留下具有区分性的特征。使用大的边缘可以在几个数据集上得到现在一流的水平。
Re-Ranking Person Re-IDentification With k-Reciprocal Encoding
将Re-ID看做一个图像检索的过程,重排序是一个提高准确率的关键步骤,而那些全自动无监督的算法很少在重排序上面进行研究。本文提出了基于k-reciprocal编码的方法来重排序重识别的结果。通过提取马氏距离和杰卡德距离,对齐进行加权求和,得到最终距离。这个方法不需要任何人工干预和与标注的数据,所以可以应用在大规模数据集上。
Person Re-IDentification in the Wild
本文提出的是一个大规模数据集和一个视频中端到端行人检测,人物识别的综合基准。这个基准解决了三个问题:(1)不同的检测器和识别器的组合所得到的性能,(2)行人检测的机制,来帮助提高总体的重识别准确率,(3)评估不同用于重识别的检测器的有效性。有三个不同的贡献:(1)一个新的数据集,PRW,6个同步摄像头获取的户外重识别数据。包含了932个实体和11816帧,每一帧都有标注框和身份标注。(2)行人检测可以帮助重识别的进行,有两个简单高效的提升:一是一个级联fine-tuning的策略来先训练一个检测模型再训练分类模型,二是一个置信加权相似度包含了检测结果在相似度度量之中。(3)对于特定场景下的准确重识别的检测器性能评估提出了见解。
Scalable Person Re-IDentification on Supervised Smoothed Manifold
现在的人物Re-ID算法大多是使用了鲁棒的视觉特征提取或者人物图像度量学习。然而,这些图片具有的内部的流型很少被研究。这是的学习到的度量在局部的几何结构上不是光滑的本文中,研究了Re-ID与基于流型的仿射学习。提出了一个保持流型的非常规算法:可以(1)充分利用训练数据的标签对。(2)较低的时间复杂度来扩展到大型的项目。(3)可以插入到现有的算法,作为一种通用的后处理方法来加强认定的准确率。
One-Shot Metric Learning for Person Re-IDentification
在监控录像中的重识别必须要处理颜色,北京,角度和姿态的各种变化。有监督的方法通常是最有效的,但是需要很多的标注,而在大规模的摄像头网络中这是很难实现的。不像之前的有监督学习需要几百个被标注的人物,我们现在只需要使用单次学习来学习一个度量。我们首先从强度图片中学习出卷积网络的深度表示。然后学习到的表示是颜色无关,并且在遇到没有见过的数据时展现了很高的性能。为了解决在不同摄像头颜色分布上的区别,我们用单对的颜色检查图片学习到了一个颜色度量。提出的单次学习方法达到了有监督学习的性能但是只需要一个样例而不是几百个。与半监督和无监督学习相比,我们的方法有更好的精确度。
Joint Detection and Identification Feature Learning for Person Search
现有的重识别基线标准中主要关注匹配已经剪裁出的行人。然而,现实中是没有行人的标注框,需要从整幅图中寻找行人,为了填补这个空缺,我们提出了一个新的行人搜索深度学习框架。不需要将检测和重识别分为两步,我们在一个神经网络中联合地处理了这两部分。一个在线实例匹配(OIM)损失函数被用来高效地训练这个网络,这对于有着很多实体的数据集很有帮助。为了证实我们的方法,我们收集并标注了大规模的数据集来进行行人搜索。包含了18184张图片,8432个实体,和96143个行人标注框。实验显示了我们的框架比其他分离的框架更加好,并且我们的OIM损失函数比传统的Softmax损失函数收敛更快。
Multiple People Tracking by Lifted Multicut and Person Re-IDentification
单摄像头中拥挤场景的多目标跟踪一直是一个棘手难题,即使某一个目标丢失视野,我们人类也可以在他重新出现时根据外观很好地捕捉到这个目标。但是我们也需要关注远距离的目标重现,而不是单单凭着外观来重新识别,因为这有可能不是同一个人。在本文中,作者提出一种基于图的新理论,可以串联、聚类不同时间出现的相同目标,通过解决最小损耗lifted multicut问题。作者的模型在不改变原来的可行解集的同时,将一个图的多个相距较远但是又相似的顶点连接起来,如此泛化了前人的工作,使得我们可以奖励那些以不引入不可行解的方式对同一目标进行相似性外观检测的轨迹。为了高效匹配较远距离的假设,作者还为目标重识别提出了新的深度结构,该结构将从深度网络提取出的全局表示和用state-of-the-art姿态估计模型得到的身体姿态层连接起来。来源
Point to Set Similarity Based Deep Feature Learning for Person Re-IDentification
传统方法大多集中于基于对间相似度来提取更鲁棒的特征表示和学习度量转换,使用Fisher型标准,深度学习的发展使得最近这两个过程在同一个联合的过程中被处理,并且得到了比较好的进展。其中一个关键的问题是基于深度学习的重识别是选择合适的相似度比较标准,使用现有基于对间相似度的标准学习到的特征的性能还是有限的,因为只有P2P的相似度比较。P2S度量可以联合地最小化类内距离,最大化类间距离,用反向传播就可以优化参数。使用提出的P2S模型,学习到的深度网络可以根据学习到的差异高效地分别出不同的人和稳定的特征表达。综合的实验验证也展示了我们方法比SOTA方法的优势。
Fast Person Re-IDentification via Cross-Camera Semantic Binary Transformation
现在很多的重识别方法都忽视了匹配的效率。最近,几种基于哈希的方法被研究出来使得重识别在大规模的数据上更加稳定。尽管有着效率,但是忽视了多相机的变化,极度破坏了最终的匹配准确度。为了解决这个问题,我们提出了一种用于快速重识别的新的基于哈希的方法,叫做Cross-camera Semantic Binary Transformation (CSBT)。CSBT旨在转换原始的高位特征向量到紧凑的身份保留二元码。为了这个目标,CSBT首先使用了子空间映射来减少多摄像机的变化,通过最大化类内相似度和类间的差异。然后,通过无缝包含语义对间关系和局部的关联信息来产生一个二元码。最终,提出了一个同时用于学习子空间映射和离散交替优化二元码的联合的学习框架。在四个基准集上的实验结果清晰地展现了CSBT相对其他方法的优势。
See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-Based Person Re-Identification
监控摄像头在不同的地方都有着广泛的应用。相应地我们需要在不同的相机下去认出同一个人,也就是人物重识别。然而,相比较基于图像的方法,很少有人在研究基于视频的方法。之前方法通常包含了两步,特征学习和度量学习。但是绝大多是现有的方法通常只关注其中的一个。同事,很多方法没有充分使用时间和空间的信息。在这篇文章中,我们关注了基于视频的任务重识别并且建立了一个端到端的深度网络架构来联合学习特征和度量。此外,在与另一个行人视频比较的时候,它通过空间循环模型集成了周围的信息。我们的方法用统一的方式处理了时间和空间的信息。
Consistent-Aware Deep Learning for Person Re-Identification in a Camera Network
本文中,提出了一个在相机网络中用来重识别人物的一致性感知的深度学习框架(CADL)。不像大多数现有的人物重识别方法通常判别两张图片是否来自同一个人,我们的方法旨在获取摄像头网络中的最大正确匹配。同现在已有的摄像机网络重识别方法不同的是,原先只考虑到了在匹配阶段一致的信息来获取一个全局的最优关系,我们利用了这种一致性感知的信息在一个深度学习框架下,其中特征表示和图像匹配都是自动地由一些确定的一致限制学习的。特别地,我们获取了全集最优的解并且平衡了不同相机之间的性能,通过的是迭代地优化相似性和关联性。实现结果显示我们的方法比现在最好的方法有了很大提升。
Unsupervised Adaptive Re-Identification in Open World Dynamic Camera Networks
人物重识别是一个在计算机视觉中开放并且具有挑战性的问题。现有的方法都在一个静态(相机数目固定)的设定下关注或者设计最好的特征表示或者学习最优的匹配矩阵。大多数方法都忽略了动态和开放的现实世界中的重识别问题,可能会有新的相机临时地被加入来获取额外的信息。为了解决这个新鲜,实际的问题,我们提出了一种无监督的自适应方法用于动态摄像机网络中的重识别模型。
First, we formulate a domain perceptive re-identification method based on geodesic flow kernel that can effectively find the best source camera (already installed) to adapt with a newly introduced target camera, without requiring a very expensive training phase. Second, we introduce a transitive inference algorithm for re-identification that can exploit the information from best source camera to improve the accuracy across other camera pairs in a network of multiple cameras. Extensive experiments on four benchmark datasets demonstrate that the proposed approach significantly outperforms the state-of-the-art unsupervised learning based alternatives whilst being extremely efficient to compute.