重新审视基于视频的PersonReID的时间建模paper题目:RevisitingTemporalModelingforVideobasedPersonReID paper是南加州大学发表在arxiv2018的工作 paper链接:链接〔1〕 Abstract 基于视频的行人重识别是一项重要任务,由于监控和摄像头网络的需求不断增加,近年来备受关注。一个典型的基于视频的personreID系统由三部分组成:图像级特征提取器(例如CNN)、聚合时间特征的时间建模方法和损失函数。尽管已经提出了许多时间建模方法,但很难直接比较这些方法,因为特征提取器和损失函数的选择对最终性能也有很大影响。我们全面研究和比较了四种不同的时间建模方法(时间池化、时间注意力、RNN和3D卷积网络),用于基于视频的行人reID。我们还提出了一种新的注意力生成网络,它采用时间卷积来提取帧之间的时间信息。评估是在MARS数据集上完成的,我们的方法大大优于最先进的方法。我们的源代码发布在https:github。comjiyanggaoVideoPersonReID。1Introduction 行人重新识别(reID)解决了在不同的图像或视频中检索特定人员(即查询)的问题,这些图像或视频可能取自不同环境中的不同摄像机。近年来,由于公共安全需求的增加和监控摄像头网络的快速增长,它受到了越来越多的关注。具体来说,我们专注于基于视频的行人重识别,即给定一个人的查询视频,系统尝试在一组gallery视频中识别此人。 最近现有的大多数基于视频的personreID方法都是基于深度神经网络〔12,13,24〕。通常,三个重要部分对基于视频的行人reID系统有很大影响:图像级特征提取器(通常是卷积神经网络,CNN)、用于聚合图像级特征的时间建模模块和用于训练网络。在测试期间,使用上述系统将probe视频和gallery视频编码为特征向量,然后计算它们之间的差异(通常是L2距离)以检索前N个结果。最近关于基于视频的行人reID的工作〔12,13,24〕主要集中在时间建模部分,即如何将一系列图像级特征聚合成剪辑级特征。 以前关于基于视频的行人reID的时间建模方法的工作分为两类:基于循环神经网络(RNN)和基于时间注意力。在基于RNN的方法中,McLanghlin等人〔13〕提出使用RNN对帧之间的时间信息进行建模;Yan等人〔20〕还使用RNN对序列特征进行编码,其中最终隐藏状态用作视频表示。在基于时间注意力的方法中,Liu等人〔12〕设计了一个质量感知网络(QAN),它实际上是一个注意力加权平均值,用于聚合时间特征;Zhou等人〔24〕提出使用时间RNN和注意力对视频进行编码。此外,Hermans等人〔7〕采用了三元组损失函数和简单的时间池化方法,并在MARS〔17〕数据集上实现了最先进的性能。 尽管已经报道了上述方法的大量实验,但很难直接比较时间建模方法的影响,因为它们使用不同的图像级特征提取器和不同的损失函数,这些变化会显著影响性能。例如,〔13〕采用3层CNN对图像进行编码;〔20〕使用了手工制作的特征;QAN〔12〕提取VGG〔16〕特征作为图像表示。 在本文中,我们通过固定图像级特征提取器(ResNet50〔6〕)和损失函数(tripletloss和softmaxcrossentropyloss)来探索不同时间建模方法对基于视频的personreID的有效性)相同。具体来说,我们测试了四种常用的时间建模架构:时间池化、时间注意力〔12、24〕、循环神经网络(RNN)〔13、20〕和3D卷积神经网络〔5〕。3D卷积神经网络〔5〕直接将图像序列编码为特征向量;为了公平比较,我们保持网络深度与2DCNN相同。我们还提出了一种新的注意力生成网络,它采用时间卷积来提取时间信息。我们在MARS〔17〕数据集上进行了实验,这是迄今为止可用的最大的基于视频的personreID数据集。实验结果表明,我们的方法在很大程度上优于最先进的模型。 总之,我们的贡献有两个:首先,我们全面研究了MARS上基于视频的人reID的四种常用时间建模方法(时间池化、时间注意力、RNN和3Dconv)。我们将发布源代码。其次,我们提出了一种新颖的基于temporalconv的注意力生成网络,它在所有时间建模方法中实现了最佳性能;借助强大的特征提取器和有效的损失函数,我们的系统大大优于最先进的方法。2RelatedWork 在本节中,我们将讨论相关工作,包括基于视频和基于图像的行人识别和视频时间分析。 基于视频的人员重识别。以前关于基于视频的行人reID的时间建模方法的工作分为两类:基于循环神经网络(RNN)和基于时间注意力。McLanghlin等人〔13〕首次提出通过RNN对帧之间的时间信息进行建模,将RNN单元输出的平均值用作剪辑级别表示。与〔13〕类似,Yan等人〔20〕还使用RNN对序列特征进行编码,最终的隐藏状态用作视频表示。Liu等人〔12〕设计了一个质量感知网络(QAN),它本质上是一个注意力加权平均,用于聚合时间特征;注意分数是从帧级特征图生成的。Zhou等人〔24〕和Xu等人〔15〕提出使用时间RNN和注意力对视频进行编码。Zhong等人〔1〕提出了一个对RGB图像和光流进行建模的双流网络,使用简单的时间池化来聚合特征。最近,Zheng等人〔17〕为基于视频的行人reID构建了一个新的数据集MARS,它成为该任务的标准基准。 基于图像的人员重识别。最近关于基于图像的人员reID的工作主要通过两个方向提高了性能:图像空间建模和度量学习的损失函数。在空间特征建模的方向,Su等人〔18〕和Zhao等人〔21〕使用人体关节来解析图像并融合空间特征。Zhao等人〔22〕提出了一种用于处理身体部位未对齐问题的部分对齐表示。至于损失函数,通常使用Siamese网络中的铰链损失和身份softmax交叉熵损失函数。为了学习有效的度量嵌入,Hermans等人〔7〕提出了一种改进的三元组损失函数,它为每个锚样本选择最难的正负样本,并取得了最先进的性能。 视频时间分析。除了personreID工作之外,其他领域的时间建模方法,如视频分类〔8〕、时间动作检测〔3,14〕,也是相关的。Karpathy等人〔8〕设计了一个CNN网络来提取帧级特征,并使用时间池化方法来聚合特征。Tran等人〔19〕提出了一个3DCNN网络来从视频剪辑中提取时空特征。Hara等人〔5〕探索了具有3D卷积的ResNet〔6〕架构。Gao等人〔2,4〕提出了一个时间边界回归网络来定位长视频中的动作。3Methods 在本节中,我们将介绍整个系统管道和时间建模方法的详细配置。整个系统可以分为两部分:从视频剪辑中提取视觉表示的视频编码器,优化视频编码器的损失函数以及将probe视频与gallery视频匹配的方法。视频首先被切割成连续的非重叠剪辑,每个剪辑包含帧。剪辑编码器将剪辑作为输入,并为每个剪辑输出一个维特征向量。视频级特征是所有剪辑级特征的平均值。3。1VideoClipEncoder 3DCNN。对于3DCNN,我们采用3DResNet〔5〕模型,该模型采用具有ResNet架构的3D卷积核〔6〕,专为动作分类而设计。我们用行人的身份输出替换最终的分类层,并使用预训练的参数(在Kinetics〔9〕上)。该模型以个连续帧(即一个视频片段)作为输入,最终分类层之前的层被用作行人的表示。 图1图1:基于图像级特征提取器(通常是2DCNN)的三种时间建模架构(A:时间池化,B:RNN和C:时间注意力)。对于RNN,最终隐藏状态或单元输出的平均值用作剪辑级表示;对于时间注意力,展示了两种类型的注意力生成网络:空间卷积FC〔12〕和空间卷积时间卷积。 参考资料 〔1〕 链接:https:arxiv。orgpdf1805。02104。pdf