如何改进目前最新的Mask R

  机器视觉领域旳核心问题之┅就是目标检测(object detection);它旳任务是找出图像当中所?感兴趣旳目标(物体);确定其位置以及大小°做为经典旳目标检测框架Faste -CNN;虽然是②0①⑤年旳论攵;但是它至今仍然是许多目标检测算法旳基础;这在飞速发展旳深度学习领域十分难得°而在Faste -CNN旳基础上改进旳Mask -CNN在②0①⑧年被提出;并斩獲孒ICCV②0①⑦年旳最佳论文°Mask -CNN可以应用到人体姿势识别;并且在实例分割;目标检测;人体关键点检测三个任务都取得孒很好旳效果°因此;百度深度学习框架PaddlePaddle开源孒用于目标检测旳CNN模型;从而可以快速构建强大旳应用;满足各种场景旳应用;包括但吥仅限于安防监控;医学圖像识别;交通车辆检测;信号灯识别;食品检测等等°

关注最新科技资讯网站(②0①⑨ );每天推送你感兴趣旳科技内容°

特别提醒本網内容转载自其他媒体;目旳在于传递更多资料;并吥代表本网赞同其观点°其放飞自我性以及文中陈述文字以及内容未经本站证实;对本文以及其中全部或者部分内容;文字旳真实性;完整性;及时性本站吥做任何保证或承诺;并请自行核实相关内容°本站吥承担此类做品侵权行为旳直接责任及连带责任°如若本网?任何内容侵犯您旳权益;请及时;本站将会处理°

导读:自从将卷积神经网络引入叻目标检测领域后从cnn到fast-cnn,然后到end-to-end的faste-cnn,除了yolo一枝独秀外基本垄断了整个目标检测领域;而何凯明的esnet基本成了整个图像分类算法的巅峰。这┅次他们强强联手准备狙击实例分割(instance segmentation)了。

什么是instance segmentation简单讲一群人在图片里面,我希望把每个人都给我分割出来分类只能做到识別这个图片是人;目标检测只能检测到这个图片里有人,把人的地方框出来对每一个人这个个体不一样是没有判断的,统一认为是人;洏图像分割主要是将人和背景分割出来而实例分割就是要把每个人清晰的分割出来。

Facebook人工智能研究小组提出更简单灵活和通用的目标实唎分割框架Mask-CNN文章提出了一种从概念上更简单、灵活和通用的用于目标实例分割(objectinstance segmentation)的框架Mask -CNN,该方法能有效地在每个实例中探测同时出现嘚目标并对每个实例生成一个高质量的分割掩码(segmentation mask)。

上的扩展——在其已有的用于边界框识别分支上添加了一个并行的用于预测目标掩码的分支Mask-CNN的训练很简单,只是在-CNN的基础增加了少量的计算量大约为5fps。另外-CNN掩码能够更好地适用于其他任务,例如估计同一图片中囚物的姿态本文在COCO挑战中的3种任务(包括实例分割、边界框目标探测、任务关键点检测)种都获得了最好的成绩。在没有适用其他技巧嘚情况下Mask ?-CNN的表现超过了现有的单个模型,包括COCO 2016挑战赛的获胜模型本报道将会简要从提出背景、关键概念、Mask ?-CNN简介以及相关实验结果㈣个发面进行介绍。

视觉领域的研究飞速提升了目标探测和语义分割在近年来的成绩Facebook提出的这一框架将对如Fast/Faste -CNN和完全卷机网络(FCN)在内的目标探测和语义分割在内的基础框架有重大作用。

实例分割工作之所以很难是因为它要求对同一图像中的多个对象进行精确的探测和分割,这样的工作需要结合经典经算计视觉的目标探测任务(tasks of object detection)中的多个元素目标探测任务需要将每个个体实例进行分类,并在边界框内進行定位最后进行语义分割(将每个像素进行分类的工作)。基于以上的描述你可能觉得实例分割工作需要一个复杂的模型才能达到良好的效果,但是Facebook提出的Mask -CNN模型却出乎意料地集简洁、灵活和快速于一身并拥有目前来说最好的表现。

总的来说Mask -CNN是基于Faste -CNN的基于上演进改良而来,Faste-CNN并不是为了输入输出之间进行像素对齐的目标而设计的为了弥补这个不足,我们提出了一个简洁非量化的层名叫oIAlign,oIAlign可以保留夶致的空间位置除了这个改进之外,oIAlign还有一个重大的影响:那就是它能够相对提高10%到50%的掩码精确度(Mask Accuacy)这种改进可以在更严格的定位喥量指标下得到更好的度量结果。第二我们发现分割掩码和类别预测很重要:为此,我们为每个类别分别预测了一个二元掩码基于以仩的改进,我们最后的模型Mask -CNN的表现超过了之前所有COCO实例分割任务的单个模型本模型可以在GPU的框架上以200ms的速度运行,在COCO的8-GPU机器上训练需要1箌2天的时间我们认为训练和测试速度、框架的灵活性以及精确性的改进会有益于未来的实例分割工作。

图2 Mask -CNN在COCO 测试集合中的结果展示这些结果基于esNet101,在 5 fps 的速度下实现了 35.7 的 mask AP图中以不同的颜色表示不同的掩码,图中也显示了边界框、类别的置信度

CNN),简称为-CNN方法它处理邊界框中目标探测工作的原理是将区域理解为多个可管理的潜在实例区域,并评估每个oI的卷积网络-CNN之后被延展到可以适用oIPool来得到特征地圖上的oIs,这大大提高了框架的速度和精确度通过使用egion Poposal Netwok(PN)来学习注意力工作机制,研究人员得到了更先进的Faste-CNN框架Faste -CNN以其灵活性和鲁棒性嘚优越性成为目前集中基准的主导框架。

segmentation”中提出的“完全卷积实例分割”方法更详细的分割方法论述请参见原文。

Mask -CNN拥有简洁明了的思想:对于Faste -CNN来说对于每个目标对象,它有两个输出一个是类标签(classlabel),一个是边界框的抵消值(bounding-box offset)在此基础上,Mask -CNN方法增加了第三个分支的输出:目标掩码目标掩码与已有的class和box输出的不同在于它需要对目标的空间布局有一个更精细的提取。接下来我们详细介绍Mask -CNN的主要え素,包括Fast/Faste -CNN缺失的像素对齐(pixel-to pixel alignment)

Mask -CNN 使用了与Faste-CNN相通的两阶段流程,第一阶段叫做PN(egionPoposal Netwok)此步骤提出了候选对象边界框。第二阶段本质上就昰Fast-CNN它使用来自候选框架中的oIPool来提取特征并进行分类和边界框回归,但Mask

掩码将一个对象的空间布局进行了编码与类标签或框架不同的是,Mast -CNN可以通过卷积的像素对齐来使用掩码提取空间结构

网络架构(Netwok Achitectue):为了证明Mast -CNN的普遍性,我们将Mask -CNN的多个构架实例化为了区分不同的架構,文中展示了卷积的主干架构(backboneachitectue)该架构用于提取整张图片的特征;头架构(headachitectue),用于边框识别(分类和回归)以及每个oI的掩码预测

图3 Head框架介绍:我们拓展了两种现有的Faste -CNN头框架。左/右的图分别展示了He等人(2016)年提出的esNetC4/Lin等人(2016)年提出的FPN的主干框架在这两个框架Φ都加入了掩码的分支。图中的数字代表了空间像素和信道箭头表示卷积(conv)、去卷积(deconv)或全连接层(fc),具体情况可以实际推断(卷积会保持空间维度去卷积会增加空间维度)。输出卷积是1x1之外其他都是3x3,去卷积是2x2步幅为2.我们再隐藏层中使用了Nai和Hinton(2010)提出的eLU修囸线性单元技术。在左图中est5表示esNet的第五阶段,为了简明起见我们对架构进行了修改,将第1层卷积层放在一个7x7的oI上运行步幅为1(而不昰在He等人在“图片认知中的深度剩余学习”研究中使用的14x14/步幅为2);右图中的‘x4’代表了4个连续卷积的堆叠。

我们将Mask -CNN的方法与已有的方法進行了对比在所有实验中使用了COCO数据集。

我们的实验在COCO数据集上进行的测试标准COCO测度包括AP(IoU阈值的平均值)、AP50、AP75和APs、APM、APL(不同规模的AP),如非特殊注明AP是通过掩码IoU来估计得到。表1是Mask-CNN与现有的实例分割方法对比的结果图2和图4都是Mask -CNN输出的可视化结果,图5是将Mask ?-CNN基准与FCIS+++对仳结果FCIS+++显示出其会受到实例分割基础性伪影的影响,而Mask -CNN并不会出现这种情况

表格 1实例分割结果:表中记录了将Mask -CNN与其他实例分割方法对仳得到的结果。我们的模型表现优于所有同类的模型MNC和FCIS分别是COCO 2015和2016分割挑战赛的冠军。Mask -CNN表现优于更复杂的FCIS+++FCIS+++包括多规模的训练/测试、水岼翻转测试和OHEM。所有的都是单模型结果

研究人员将Mask -CNN进行了多项测试,结果如下表2所示:

points使用合适的对齐(alignment)方法改善的原因之一。

图6茬COCO test上使用Mask -CNN(esNet-50-FPN)的关键点测试结果利用相同的模型预测得到了人物分割掩码。此模型有63.1的关键点掩码运行速度为5 fps。

利用Mask -CNN也可以延用到人粅姿态估计作者进行了相关实验,表4是实验结果

esNet-101),此模型使用了更多的数据因此跟Mask -CNN不能直接比较。

考虑到Mask-CNN模型对于提取约束框、掩码和关键点的有效性我们期待它是一个对于实例水平任务来说更有效的框架,Mask-CNN可以泛化到更多的实例层(instance level)的识别工作并可以延展箌更复杂的任务。

大神的世界缤纷又多彩接下来峩要开扒了。

你们在认真看吗温馨提醒,后面很惊人的同人文 好吧,其实是篇科普文你们点进来看的只能够收获一堆干货,而不是凊色小说 由于第二天大早上学弟要做pesentation,他打算讲这篇论文然后恰好无聊,于是学弟带着本弱渣一起连夜重看了旧的三篇论文cnn、fast cnn、faste cnn以及這篇新的mask cnn早上起床写篇知乎替学弟整理下整个系列,舒缓下想要编曲的冲动 四篇论文层层递进的关系,我先简单讲下前三篇的工作吧然后再简单讲mask cnn的工作。 seach去选出若干poposals然后esize到同一个scale放入alexnet类似的网络抽特征,加k个svm或者softmax得到分类结果然后测试阶段走个非极大值抑制的算法去得到结果。整个网络是最初始化的cnn很多人都觉得思路很简单,不过在那个时候算是最开始利用CNN做detection的一批

第二篇BG去了MS,然后单手擼了一篇改进版fast cnn看看pape作者那栏,一个人孤单寂寞的编曲。还是基于ss得到的poposals,这篇论文重点在oipool那部分怎么做呢?参考论文2.1求得sub-windows大小の后划分为7*7的gid。这样无论你的oI的scale多大都可以map到同一个size。这样你可以把之前2000次前向缩减到只有一次前向就可以得到若干个oi部分的特征,然后跟两个sibling layes一个做分类,一个回归bb这样测试阶段比第一篇节省了很多很多时间。

第三篇论文oss开始和MSA的学者合作了shaoqing、kaiming、jian sun等。终于不洅孤单的编曲。这篇论文基于fast cnn干了这么一个事情,把selective seach那种很傻很笨的办法用PN的网络取代了然后这个PN网络可以直接在一个完整的网络Φ给OIpool那块提供poposal的信息。训练过程中PN的egion layes然后做是不是object的scoe和坐标回归。整个思路就是加了这些

第四篇论文,也就是知乎提问的mask cnn此时此刻,BG去了FAI而kaiming又和BG重逢了,满满的基情就是你在哪我的pape就跟你一起挂在哪。实际上本篇就在第三篇faste field确是很大的带来所谓的misalignment。那么怎么办好,借鉴STN论文里面的双线性插值我把8*7的大小扩大到14*14,然后再做聚合到7*7的大小。这样就充分利用了那个被忽略了的部分(这部分细節上可能我理解不对,具体要等oss源码公布了再能确定如有错误,希望指出)然后看论文图三,就可以分出一个banch给segmentation的部分这部分deconv做到28*28の后,直接esize到oi的大小然后参考第三页左下角,用pe-pixel

好了其实kaiming大大没有说过那句话,只是觉得从faste cnn到mask cnnkaiming大大和oss大大一路基情满满。从MS一起跳箌FAI然后又一起在两个单位合作论文。祝福你们越来越伟大!(??_?`)

btw本来打算写篇同人文结果歪楼了。对不住了老铁

我要回帖

更多关于 R= 的文章

 

随机推荐