云计算百科
云计算领域专业知识百科平台

Real-world Anomaly Detection in Surveillance Videos阅读笔记(2018年的文章,有关弱监督的)

目录

摘要

1.简介

2.相关工作

3.提出的异常检测方法

3.1多实例学习

3.2 深度MIL排名模型

4.数据集

5.实验

5.1实验细节

5.2与最先进的比较

5.3所提议方法的分析

5.4异常活动识别实验

6.结论

摘要

利用正常和异常视频来学习异常,利用弱标记的训练视频,通过深度多实例排序框架来学习异常,将正常和异常视频视为包,将视频片段视为多实例学习(MIL)中的实例,自动学习深度异常排序模型;排序损失函数中还引入了稀释性和时间平滑性约束。

引入的数据集:http://crcv.ucf.edu/projects/real-world/;这个数据集两个作用:1. 一般的异常检测,考虑一组中的所有异常和另一组中的所有正常。;2. 用于识别13个异常活动中的每一个。

1.简介

异常检测系统的目标是及时发出偏离正常模式的活动信号,并识别发生异常的时间窗口。异常检测可以被认为是粗级视频理解。

解决异常检测可以开发算法来检测特定异常事件,但这样难以推广到检测其他异常事件。也因如此,希望有一种异常检测的算法,可以不依赖于事件的先验信息,也就是最小监督——稀疏编码。

异常检测主要思想是异常事件不能从所有正常事件中准确重建,但很难定义一个将所有可能的正常行为全考虑在内的正常事件,而且在不同的场景下,同种行为又有着不同。

该文章提出了一种使用弱标记训练视频的异常检测算法。视频级别——有异常,但不知道异常在哪个帧。多实例学习(MIL),将正常和异常的监控视频视为包,将每个视频的片段视为包中实例,这个是用来学习异常的;异常排序模型,预测视频中异常片段的高异常分数。

2.相关工作

这部分文章介绍了一下现有方法以及其局限性,然后说了一下该文章使用的方法——通过利用正常和异常数据,将异常检测制定为排序框架中的回归问题,利用弱标签数据的多实例学习来学习异常模型。

3.提出的异常检测方法

3.1多实例学习

MIL中,只需要表示整个视频中存在异常的视频级标签。包含异常的视频标记成阳性,没有异常的视频标记为阴性。将一个阳性的视频表示为一个正包,不同时间段中包中会产生单独的实例,阴性视频表示为负包,阴性包中没有实例包含异常,正实例的确切信息未知,可以根据每个包中得分最高的实例来优化目标函数。

优化前:

(k为训练样例综述,yi表示每个样例的标签)

优化后:

(z为袋的总数,YBj表示袋级标签)

3.2 深度MIL排名模型

该文章将异常检测作为一个回归问题,希望异常视频片段比正常视频片段具有更高的异常分数。传统方法是使用排名损失,鼓励异常视频片段获得高分,该方法需要视频片段级别的注释。

该文章使用多实例排序目标函数。

只对在正包和负包中分别具有最高异常分数的两个实例强制排名,而不是对包的每个实例强制排名。在正包中对应最高异常分数的段最有可能是异常段,在负包中最高异常分数的段看似与异常段最相似但实际上是一个正常实例,在异常检测时,这个实例可能会产生假警报,因此希望在异常得分方面将阳实例和阴实例推的很远,因此给出了铰链损失公式中的排名损失。

限制在于,其忽略了异常视频的潜在时间架构,异常通常只会在短时间内发生这使得异常包中实例的分数是稀疏的;其次是视频是片段序列,异常分数应该在视频片段之间平滑的变换,为达到此目的使用最小化相邻视频片段的分数差异来强制时间相邻视频片段的异常分数之间的时间平滑性损失函数变为:

其中1表示时间平滑项,2表示稀疏性项。

4.数据集

本文章采用了一个新的具有13种异常情况的数据集。

5.实验

5.1实验细节

从C3D网络的全连接层中提取视觉特征,将每个视频帧的大小重新调整为240×320像素,帧率固定为30fps。计算每个16帧视频C3D特征,进行归一化。取该片段内所有16帧剪辑特征的平均值,输入到三层FC神经网络中。

通过反向模式自动微分来计算梯度。

评估是通过ROC曲线和相应的曲线下面积。

5.2与最先进的比较

从之前的基于字典的学习正常行为的方法(就是已知一些正常行为,通过视频一一比较来标注出视频中的正常行为),根据此代码,从每个正常训练的视频中提取7000个立方体,并在每个体积中计算基于梯度的特征,在降低特征维度之后使用PCA(降低数据维度,发现关键特征的方法),用稀疏性表示学习字典;基于全卷积前馈深度自编码器来学习局部特征和分类器(此为之前的方法),该文章基于此方法,使用40帧的时间窗口在正常视频上训练网络,使用重建误差来测量异常,在模型训练设置上,每个包中有32个视频片段,使用C3D计算特征。使用二元SVM分类器作为基线方法。

在文章中展示了所采用的方法的定性结果,但在场景太黑,有飞虫遮挡和群体活动时效果不好。

5.3所提议方法的分析

假设为通过给定大量带有视频级标签的正面和负面视频,网络可以自动学习预测视频中异常的位置,也就是说网络应该在异常片段产生高分。虽然不使用段级注释,但网络能够根据异常分数预测异常的时间位置。

误警率,是针对正常视频来说的,通过鲁棒的异常检测方法在正常视频上具有较低的误报率,阈值设置为50%。

5.4异常活动识别实验

从每个事件中使用50个视频,并将其分成75/25的比例进行训练和测试。

对于第一个基线,对每个16帧剪辑的C3D特征进行平均,然后进行L2归一化,构建出一个特征向量,该向量作为最近分类器的输入;第二个基线是TCNN,引入ToI池化层来取代C3D中的第五层和3d-max-池化层。ToI层聚合所有剪辑的特征,并为整个视频输出一个特征向量。

混淆矩阵,如果是热力图的话,想看对角线,对角线越明亮越正确;非对角线,哪个格子值大,就是该模型的“偏见”,精确率——“鱼的比率有多高(池塘中所有东西的比率)”、召回率——“捞起的鱼有多大比率(在鱼中考虑)”。

6.结论

尝试同时利用正常和异常视频,使用带有弱标记的深度MIL框架,还有上面提到的基线方法。

赞(0)
未经允许不得转载:网硕互联帮助中心 » Real-world Anomaly Detection in Surveillance Videos阅读笔记(2018年的文章,有关弱监督的)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!