机器之心发布
作者:李灏峰
明显物体检测常作为计算机视觉与图形学使用的预处理过程。但现在只要面向图画的明显物体检测办法研讨比较老练,而面向视频的办法还有很大的研讨空间。
为此,香港大学联合中山大学和深睿医疗人工智能试验室发布论文《Motion Guided Attention for Video Salient Object Detection》,提出了根据运动留意力的视频明显物体检测办法(MGA),比之前最好的算法在 DAVIS 和 FBMS 上别离提升了 4 个和 8 个百分点,该论文已被 ICCV2019 接纳。
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Motion_Guided_Attention_for_Video_Salient_Object_Detection_ICCV_2019_paper.pdf
研讨布景
明显物体检测问题要求关于每张图片或视频帧,猜测一个二类其他像素级切割成果,用以表征图片中的明显或远景物体。该问题常作为计算机视觉与图形学使用的预处理过程。跟着深度学习技能的开展,面向图片的明显物体检测办法被广泛研讨,而面向视频的明显物体检测有待进一步探究。
为了处理视频的明显物体检测,该论文作者有以下调查:
其一,视频物体的明显性由其外观和运动一起决议,明显物体的运动往往也是明显的,明显运动的区域很或许是明显物体;
其二,物体的运动包含空间连贯性信息,运动状况相似的相邻区域很或许同归于一个物体或许布景;
其三,使用运动信息的空间连贯性,有助于别离物体和布景。布景外观可包含纹路不同的多个区域,而物体可包含内部边际及不同外观的部件,这造成了切割的困难。而表征运动的光流图片相对「洁净」(如图 1b),可更好地捕捉部分物体鸿沟,成为切割明显物体的关键。
现在现有办法首要经过循环神经网络聚合多个视频帧的卷积特征,或许使用光流和变形来对齐不同帧的特征,而没有经过端到端学习来捕捉和使用光流中的明显运动。作者提出一系列运动留意力模块,来建模明显运动怎么结合外观信息来影响物体明显性。作者还提出了一个双分支网络,用以放置上述留意力模块,来完成视频明显物体检测。
图 1。
运动引导的留意力机制
为了建模明显运动怎么结合外观信息来影响物体明显性的,作者将外观信息笼统为三维的外观特征张量(可为某个 ReLU 隐层的输出),将明显运动笼统为二维的运动明显图(如某个 sigmoid 隐层的输出)或许三维的运动特征张量。首要考虑最简略的状况,怎么用一张二维的运动明显图来「重视」三维外观特征的重要方位。一个直观的朴素模型是将运动明显图与外观特征逐位相乘,来加强外观特征中运动明显的区域的呼应。但这个朴素模型的缺陷在于,运动明显图中的零元素会「按捺」外观特征中运动不明显或许停止的区域,然后导致物体切割不完好的状况呈现。
为了处理朴素模型的缺陷,作者提出模型一:选用残差结构,将被加权后的外观特征与开始的外观特征逐位相加,弥补回过错按捺的外观信息,使后续的神经网络层有时机勾勒出完好物体。下面考虑怎么使用三维运动特征来重视外观特征。一个简略计划是仿照模型一,与外观特征逐位相乘相加,差异在于要先选用一个 1x1 卷积来对齐运动特征和外观特征的形状,这样得到模型二。
模型二能够看作是用一个三维权重一起完成空间和通道留意力的机制。但因为运动特征来源于信息量较「稀少」的光流图片,缺少纹路信息和杂乱语义,根据这样的特征对外观特征进行通道留意力,或许引进额定噪声或导致过拟合。一个备选计划是运动特征仅用于空间留意力,即先用一个 1x1 卷积和 sigmoid 从运动特征猜测出运动明显图,在进行相似模型一的操作,这样得到模型三。
图 2。
最终,根据模型二和三,考虑怎么完成合理的通道留意力,作者提出了模型四。模型四先用运动特征对外观特征进行空间留意力,「空间留意」后的外观特征经由大局均匀池化得到一个一维向量,该向量可表征明显运动区域的外观特征。因为物体的运动和停止部分有较共同的外观特点(如颜色、纹路、语义),那么根据上述运动区域的外观特征向量猜测出的一维的通道留意力权重,可有用进步物体停止部分相应特点或通道的呼应,然后有助于切割出完好物体。模型四的结尾保存残差结构,以防止零元素「按捺」的问题。
运动引导留意力网络(MGAnet)
图 3。
接下来,作者提出一个运动引导留意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动明显图,另一方面用来结合前面提出的一系列运动留意力模块,然后构成完好的视频明显物体检测办法。MGAnet 是一个根据 DeepLab-V3+的双分支网络。现在不少视频切割办法也采纳双分支结构,但首要在各分支结尾进行交融,而 MGAnet 选用多层次的、密布的办法衔接两个分支。MGAnet 包含一个以 RGB 图画为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及衔接两分支的 6 个留意力模块 MGA-。外观分支的编码器可为 ResNet-101 或 ResNet-50,运动分支的编码器可为 ResNet-34 或 ResNet-18,不同组合均可到达 SOTA 的功能。MGA- 可看作布置留意力模块的「槽」,其间 MGA-5 仅可选用模型一(运动信息是二维明显图),MGA-0 至 MGA-4 可采纳模型二三四中的某一种,一般选用同一种。
试验成果
下文陈述几个首要的试验。第一个试验将 MGA 与现有的视频及图片的明显物体检测办法在三个数据集 DAVIS、FBMS 和 ViSal 上比较。其间,ViSal 中并没有划分出练习集供模型练习,能较好地反映模型的泛化才能。与 6 个视频模型和 11 个图片模型比较,MGA 在三个数据集上均体现最优,别离取得 4 个、8 个、1 个百分点的 MaxF 的抢先。
表 1。
第二个试验验证网络结构的有用性。作者测验单独地练习、测验单个分支,其间独立的外观分支等价于语义切割中的 SOTA 模型 DeepLab-V3+;作者还测验仅保存编码器部分(MGA-E)或许解码器部分(MGA-D)的留意力模块。试验成果显现,双分支结构有用使用了运动信息,优于任一单分支网络。留意力模块布置在编码器端或解码器端,均能起到作用,一起布置在编码器和解码器端可取得最佳功能。
第三个试验验证四个运动留意力模块的有用性。三种朴素的特征交融办法,包含逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线办法。表 3 中,「E-」表明布置在编码器端,「D-」表明布置在解码器端。试验成果显现,四种留意力模块均优于基线办法。其间,较杂乱的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。
表 2。
表 3。
总的来说,作者使用运动的空间连贯性,选用留意力机制来建模运动对物体明显性的影响,提出了一个简略但准确率高的双分支网络。与根据循环神经网络的办法不同,该办法使用一个极小时刻窗内的时序上下文(即与相邻帧的光流),取得了 SOTA 的功能。本文是对原文首要办法和试验的解读,更多细节请拜见原文。
本文为机器之心发布,转载请联络本大众号取得授权。
------------------------------------------------