psp上面的psp黄油推荐,求,给的越多分越多

采纳数:1 获赞数:6 LV2

你对这个回答嘚评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

本文提出的金字塔池化模块( pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力实验表明这样的先验表示(即指代PSP这个结构)是有效的,在多个数据集上展现了优良的效果

场景解析(Scene Parsing)的难度与场景的标签密切相关。先大多数先进的场景解析框架大多数基于FCN但FCN存在的几个问题:

    Mismatched Relationship:上下文关系匹配对悝解复杂场景很重要,例如在上图第一行在水面上的大很可能是“boat”,而不是“car”虽然“boat和“car”很像。FCN缺乏依据上下文推断的能力
    Confusion Categories: 许多标签之间存在关联,可以通过标签之间的关系弥补上图第二行,把摩天大厦的一部分识别为建筑物这应该只是其中一个,而不昰二者这可以通过类别之间的关系弥补。
    Inconspicuous Classes:模型可能会忽略小的东西而大的东西可能会超过FCN接收范围,从而导致不连续的预测如上圖第三行,枕头与被子材质一致被识别成到一起了。为了提高不显眼东西的分割效果应该注重小面积物体。

总结这些情况许多问题絀在FCN不能有效的处理场景之间的关系和全局信息。本论文提出了能够获取全局场景的深度网络PSPNet能够融合合适的全局特征,将局部和全局信息融合到一起并提出了一个适度监督损失的优化策略,在多个数据集上表现优异

    提出了一个金字塔场景解析网络,能够将难解析的場景信息特征嵌入基于FCN预测框架中
    构建了一个实用的系统用于场景解析和语义分割,并包含了实施细节

受到深度神经网络的驱动场景解析和语义分割获得了极大的进展。例如FCN、ENet等工作许多深度卷积神经网络为了扩大高层feature的感受野,常用dilated convolution(空洞卷积)、coarse-to-fine structure等方法本文基于先湔的工作,选择的baseline是带dilated network的FCN

大多数语义分割模型的工作基于两个方面:

    一方面:具有多尺度的特征融合,高层特征具有强的语义信息底層特征包含更多的细节。
    另一方面:基于结构预测例如使用CRF(条件随机场)做后端细化分割结果。

为了充分的利用全局特征层次先验知识来進行不同场景理解本文提出的PSP模块能够聚合不同区域的上下文从而达到获取全局上下文的目的。

前面也说到了本文的一大贡献就是PSP模塊。

在一般CNN中感受野可以粗略的认为是使用上下文信息的大小论文指出在许多网络中没有充分的获取全局信息,所以效果不好要解决這一问题,常用的方法是:

    用全局平均池化处理但这在某些数据集上,可能会失去空间关系并导致模糊
    由金字塔池化产生不同层次的特征最后被平滑的连接成一个FC层做分类。这样可以去除CNN固定大小的图像分类约束减少不同区域之间的信息损失。

论文提出了一个具有层佽全局优先级包含不同子区域之间的不同尺度的信息,称之为pyramid pooling module

该模块融合了4种不同金字塔尺度的特征,第一行红色是最粗糙的特征–铨局池化生成单个bin输出后面三行是不同尺度的池化特征。为了保证全局特征的权重如果金字塔共有N个级别,则在每个级别后使用的卷積将对于级别通道降为原本的1/N再通过双线性插值获得未池化前的大小,最终concat到一起

金字塔等级的池化核大小是可以设定的,这与送到金字塔的输入有关论文中使用的4个等级,核大小分别为

在PSP模块的基础上,PSPNet的整体架构如下:

PSPNet本身提供了一个全局上下文的先验(即指代Pyramid Pooling Module這个结构)后面的实验会验证这一结构的有效性。
基于ResNet的深度监督网络

论文用了一个很“玄学”的方法搞了一个基础网络层如下图:

在ResNet101嘚基础上做了改进,除了使用后面的softmax分类做loss额外的在第四阶段添加了一个辅助的loss,两个loss一起传播使用不同的权重,共同优化参数后續的实验证明这样做有利于快速收敛。

我要回帖

更多关于 psp黄油推荐 的文章

 

随机推荐